Newsletter Subscribe
Enter your email address below and subscribe to our newsletter

wired+1fortune+1simonwillison+1Anthropic-ը խոստովանել է, որ «սխալ փոխզիջում» է կատարել իր նոր թողարկված Claude Fable 5 մոդելի անվտանգության սահմանափակումների հետ կապված՝ չեղարկելով հակասական քաղաքականությունը, որը գաղտնի նվազեցնում էր AI-ի աշխատանքը, երբ այն հայտնաբերում էր օգտատերերի, որոնք աշխատում էին Frontier AI-ի զարգացման վրա: Ներողությունը, որը երեքշաբթի օրը փոխանցվել է WIRED-ին, հաջորդել է մոդելի հունիսի 9-ի թողարկումից ընդամենը երկու օր անց, ինչը առաջացրել է հետազոտողների, մշակողների և AI քաղաքականության փորձագետների դժգոհությունը:
«Մենք փոխում ենք Fable 5-ի պաշտպանիչ մեխանիզմները Frontier LLM-ի զարգացման համար, որպեսզի դրանք տեսանելի դարձնենք», – ասվում է Anthropic-ի հայտարարության մեջ: «Մենք սխալ փոխզիջում ենք կատարել և ներողություն ենք խնդրում հավասարակշռությունը ճիշտ չպահպանելու համար»:simonwillison+1
Հակասությունը կենտրոնացած էր Fable 5-ի 319-էջանոց համակարգային քարտում թաքնված բացահայտման վրա, որը ցույց էր տալիս, որ մոդելը լուռ կնվազեցնի իր պատասխանները, երբ հայտնաբերի հարցումներ, որոնք կապված են ժամանակակից AI-ի զարգացման հետ, ինչպիսիք են մեծ լեզվական մոդելների համար ուսումնական ենթակառուցվածքների կառուցումը: Ի տարբերություն Fable 5-ի կիբերանվտանգության և կենսաբանության շուրջ այլ սահմանափակումների, որոնք բացահայտորեն վերահասցեավորում են օգտատերերին դեպի ավելի քիչ հզոր Claude Opus 4.8՝ տեսանելի ծանուցմամբ, AI-ի զարգացման պաշտպանիչ մեխանիզմը գործում էր անտեսանելիորեն՝ օգտագործելով այնպիսի տեխնիկաներ, ինչպիսիք են հուշումների փոփոխությունը և կառավարման վեկտորները՝ արդյունավետությունը սահմանափակելու համար՝ առանց օգտատերերին տեղեկացնելու:fortune+1
Claude Fable 5-ը Anthropic-ի առաջին հանրային հասանելի "Mythos-դասի" մոդելն է, որը կիսում է նույն հիմնական ճարտարապետությունը, ինչ սահմանափակված Claude Mythos 5-ը, բայց փաթեթավորված է անվտանգության դասակարգիչներում, որոնք կասեցնում են կիբերանվտանգության, կենսաբանության, քիմիայի և մոդելի թորման հարցումները: Երբ դրանք ակտիվանում են, պատասխանները մշակվում են Claude Opus 4.8-ի կողմից: Anthropic-ը հայտարարել է, որ այս վերադարձը տեղի է ունենում նստաշրջանների 5 տոկոսից պակաս դեպքերում:techcrunch+2
Սակայն կիբերանվտանգության հետազոտողները և կենսաբանները բողոքել են, որ դասակարգիչները չափազանց լայն են և նշում են նույնիսկ օրինական աշխատանքը: Anthropic-ը ինքն էլ խոստովանել է, որ կենսաբանության և քիմիայի պաշտպանիչ մեխանիզմը չափազանց լայն ցանց է նետում և հայտարարել է, որ նախատեսվում է դրա նեղացումը:lushbinary+2
Թարմացված քաղաքականության համաձայն՝ նշված հարցումներն այժմ տեսանելիորեն կվերադառնան Opus 4.8-ին բոլոր սահմանափակված կատեգորիաներում: API-ում նշված հարցումները կվերադարձնեն մերժման պատճառը: «Դուք սա կտեսնեք ամեն անգամ, երբ դա տեղի ունենա», – ասել է Anthropic-ի խոսնակը:moneycontrol+1
Ընկերությունը սահմանափակումները բնութագրել է որպես անհրաժեշտ՝ հակառակորդների կողմից իր ամենահզոր մոդելն օգտագործելուց խուսափելու համար՝ ԱՄՆ-ի տեխնոլոգիական առավելությունը Frontier չիպերի և ուսումնական ծրագրային ապահովման մեջ նվազեցնելու համար, և ծառայության պայմանները կատարելու համար, որոնք արգելում են Claude-ի օգտագործումը մրցակից AI համակարգեր կառուցելու համար: Դրվագը, այնուամենայնիվ, սրել է բանավեճը այն մասին, թե որտեղ է անցնում սահմանը պատասխանատու տեղակայման և մոդելի օգտակարությունը նվազեցնելու միջև՝ լարվածություն, որին Anthropic-ը, հավանաբար, կրկին կհանդիպի, քանի որ այն պատրաստվում է հաղորդվող IPO-ին:fortune+1