Anthropic-ը ներողություն է խնդրել Claude Fable 5-ը գաղտնի սահմանափակելու համար

Anthropic-ը ներողություն է խնդրել Claude Fable 5-ի պատասխանները գաղտնի նվազեցնելու համար, երբ այն հայտնաբերել է, որ օգտատերերն աշխատում են Frontier AI-ի զարգացման վրա, և դա անվանել է «սխալ փոխզիջում»:wired+1
Մոդելի 319-էջանոց համակարգային քարտում թաքնված բացահայտումը բացահայտել է անտեսանելի սահմանափակումներ՝ օգտագործելով հուշումների փոփոխություն և կառավարման վեկտորներ, ի տարբերություն այլ ոլորտներում առկա տեսանելի պաշտպանիչ մեխանիզմների:fortune+1
Նշված հարցումներն այս շաբաթվանից բոլոր կատեգորիաներում տեսանելիորեն կվերադառնան Claude Opus 4.8-ին, իսկ API-ն կվերադարձնի մերժման պատճառները:simonwillison+1

Anthropic-ը խոստովանել է, որ «սխալ փոխզիջում» է կատարել իր նոր թողարկված Claude Fable 5 մոդելի անվտանգության սահմանափակումների հետ կապված՝ չեղարկելով հակասական քաղաքականությունը, որը գաղտնի նվազեցնում էր AI-ի աշխատանքը, երբ այն հայտնաբերում էր օգտատերերի, որոնք աշխատում էին Frontier AI-ի զարգացման վրա: Ներողությունը, որը երեքշաբթի օրը փոխանցվել է WIRED-ին, հաջորդել է մոդելի հունիսի 9-ի թողարկումից ընդամենը երկու օր անց, ինչը առաջացրել է հետազոտողների, մշակողների և AI քաղաքականության փորձագետների դժգոհությունը:

Թաքնված սահմանափակումները վրդովմունք են առաջացրել

«Մենք փոխում ենք Fable 5-ի պաշտպանիչ մեխանիզմները Frontier LLM-ի զարգացման համար, որպեսզի դրանք տեսանելի դարձնենք», – ասվում է Anthropic-ի հայտարարության մեջ: «Մենք սխալ փոխզիջում ենք կատարել և ներողություն ենք խնդրում հավասարակշռությունը ճիշտ չպահպանելու համար»:simonwillison+1

Հակասությունը կենտրոնացած էր Fable 5-ի 319-էջանոց համակարգային քարտում թաքնված բացահայտման վրա, որը ցույց էր տալիս, որ մոդելը լուռ կնվազեցնի իր պատասխանները, երբ հայտնաբերի հարցումներ, որոնք կապված են ժամանակակից AI-ի զարգացման հետ, ինչպիսիք են մեծ լեզվական մոդելների համար ուսումնական ենթակառուցվածքների կառուցումը: Ի տարբերություն Fable 5-ի կիբերանվտանգության և կենսաբանության շուրջ այլ սահմանափակումների, որոնք բացահայտորեն վերահասցեավորում են օգտատերերին դեպի ավելի քիչ հզոր Claude Opus 4.8՝ տեսանելի ծանուցմամբ, AI-ի զարգացման պաշտպանիչ մեխանիզմը գործում էր անտեսանելիորեն՝ օգտագործելով այնպիսի տեխնիկաներ, ինչպիսիք են հուշումների փոփոխությունը և կառավարման վեկտորները՝ արդյունավետությունը սահմանափակելու համար՝ առանց օգտատերերին տեղեկացնելու:fortune+1

Ավելի լայն պաշտպանիչ մեխանիզմները քննադատության են արժանանում

Claude Fable 5-ը Anthropic-ի առաջին հանրային հասանելի "Mythos-դասի" մոդելն է, որը կիսում է նույն հիմնական ճարտարապետությունը, ինչ սահմանափակված Claude Mythos 5-ը, բայց փաթեթավորված է անվտանգության դասակարգիչներում, որոնք կասեցնում են կիբերանվտանգության, կենսաբանության, քիմիայի և մոդելի թորման հարցումները: Երբ դրանք ակտիվանում են, պատասխանները մշակվում են Claude Opus 4.8-ի կողմից: Anthropic-ը հայտարարել է, որ այս վերադարձը տեղի է ունենում նստաշրջանների 5 տոկոսից պակաս դեպքերում:techcrunch+2

Սակայն կիբերանվտանգության հետազոտողները և կենսաբանները բողոքել են, որ դասակարգիչները չափազանց լայն են և նշում են նույնիսկ օրինական աշխատանքը: Anthropic-ը ինքն էլ խոստովանել է, որ կենսաբանության և քիմիայի պաշտպանիչ մեխանիզմը չափազանց լայն ցանց է նետում և հայտարարել է, որ նախատեսվում է դրա նեղացումը:lushbinary+2

Փոփոխությունները կլինեն այս շաբաթ

Թարմացված քաղաքականության համաձայն՝ նշված հարցումներն այժմ տեսանելիորեն կվերադառնան Opus 4.8-ին բոլոր սահմանափակված կատեգորիաներում: API-ում նշված հարցումները կվերադարձնեն մերժման պատճառը: «Դուք սա կտեսնեք ամեն անգամ, երբ դա տեղի ունենա», – ասել է Anthropic-ի խոսնակը:moneycontrol+1

Ընկերությունը սահմանափակումները բնութագրել է որպես անհրաժեշտ՝ հակառակորդների կողմից իր ամենահզոր մոդելն օգտագործելուց խուսափելու համար՝ ԱՄՆ-ի տեխնոլոգիական առավելությունը Frontier չիպերի և ուսումնական ծրագրային ապահովման մեջ նվազեցնելու համար, և ծառայության պայմանները կատարելու համար, որոնք արգելում են Claude-ի օգտագործումը մրցակից AI համակարգեր կառուցելու համար: Դրվագը, այնուամենայնիվ, սրել է բանավեճը այն մասին, թե որտեղ է անցնում սահմանը պատասխանատու տեղակայման և մոդելի օգտակարությունը նվազեցնելու միջև՝ լարվածություն, որին Anthropic-ը, հավանաբար, կրկին կհանդիպի, քանի որ այն պատրաստվում է հաղորդվող IPO-ին:fortune+1

Sources (36)

1 Anthropic Walks Back Policy That Could Have 'Sabotaged ... www.wired.com
2 Anthropic accused of 'secret sabotage' as Claude Fable 5 ... fortune.com
3 Why Anthropic's ‘Mythos-Class’ Claude Fable 5 faced backlash from developers, researchers www.moneycontrol.com
4 Anthropic Walks Back Policy That Could Have 'Sabotaged' ... simonwillison.net
5 Anthropic releases Claude Fable, a version of Mythos, days after warning AI is becoming too dangerous techcrunch.com
6 Anthropic releases Claude Fable 5, a 'Mythos-class' AI model with safeguards www.businessinsider.com
7 Anthropic's 'safe' Mythos-class model won't answer ... www.businessinsider.com
8 Claude Fable 5 vs Mythos 5: The Safety Split Explained lushbinary.com
9 Cybersecurity researchers aren't happy about the ... techcrunch.com
10 Anthropic apologises, revises Claude Fable 5's AI development restrictions after backlash www.moneycontrol.com
11 Anthropic Releases New ‘Mythos-Class’ Model to General Public With Guardrails www.wsj.com
12 Anthropic just released Claude Fable 5, the first of its Mythos ... www.instagram.com
13 Anthropic's new Claude Fable 5 is the same base model as ... www.zdnet.com
14 Anthropic releases Mythos-like AI model to the public two ... www.cnbc.com
15 Anthropic is secretly degrading Fable 5 when it thinks you' ... www.reddit.com
16 Claude Fable 5 & Claude Mythos 5 Benchmarks Explained www.vellum.ai
17 Anthropic just released Claude Fable 5 ... www.instagram.com
18 r/ClaudeAI - Introducing Claude Fable 5 www.reddit.com
19 Claude Fable 5: Anthropic releases a 'safe' version of ... mashable.com
20 Claude Fable 5 and Claude Mythos 5 anthropic.com
21 Claude Fable 5: Anthropic admits "wrong tradeoff" after invisibly throttling rival AI researchers the-decoder.com
22 Anthropic to make Claude Fable 5 restrictions visible after criticism over hidden safeguards: Report www.storyboard18.com
23 Anthropic says these topics are too dangerous to let its ... arstechnica.com
24 📰 BREAKING — JUNE 9 Fable 5 : r/vibecoding www.reddit.com
25 Anthropic Just Shipped Fable 5 (Mythos) — Its Most Capable ... aiplusfounderscommunity.substack.com
26 Claude Fable 5 and Claude Mythos 5 www.anthropic.com
27 Why is fable 5 included only till June 22? Does anthropic ... www.reddit.com
28 Very pleased to hear Anthropic have walked back this ... x.com
29 Using Claude Fable 5 means opting into data collection mashable.com
30 Claude Fable 5: Anthropic Locks Down Cyber and Bio aardwolfsecurity.com
31 Anthropic Walks Back Policy That Could Have 'Sabotaged' ... www.reddit.com
32 Anthropic says these topics are too dangerous to let its ... arstechnica.com
33 "We're changing Fable 5's safeguards for frontier LLM ... www.facebook.com
34 Anthropic is releasing Claude Fable 5, its first Mythos www.facebook.com
35 Claude Fable 5 review: what the new Mythos model gets ... www.lennysnewsletter.com
36 Unpopular opinion: Claude Fable 5 feels like a gimmick www.reddit.com

Breaking News

Popular News

Anthropic-ը ներողություն է խնդրել Claude Fable 5-ը գաղտնի սահմանափակելու համար

Թաքնված սահմանափակումները վրդովմունք են առաջացրել

Ավելի լայն պաշտպանիչ մեխանիզմները քննադատության են արժանանում

Փոփոխությունները կլինեն այս շաբաթ

Leave a ReplyCancel Reply

Stay informed and not overwhelmed, subscribe now!

Newsletter Subscribe

Թաքնված սահմանափակումները վրդովմունք են առաջացրել

Ավելի լայն պաշտպանիչ մեխանիզմները քննադատության են արժանանում

Փոփոխությունները կլինեն այս շաբաթ

Related Posts

JWST-ն հայտնաբերել է երբևէ տեսած ամենահեռավոր բարային պարուրաձև գալակտիկան

Huawei-ն հրապարակել է զանգվածային արտադրության տվյալներ, որոնք հիմնավորում են Tau Scaling Law-ն

Micron-ը սկսել է Հիրոսիմայում 9 միլիարդ դոլար արժողությամբ ընդլայնման աշխատանքները՝ AI հիշողության չիպերի համար

Leave a ReplyCancel Reply

Stay informed and not overwhelmed, subscribe now!