Η Anthropic ζητά συγγνώμη για τον μυστικό περιορισμό του Claude Fable 5

Η Anthropic ζήτησε συγγνώμη για την κρυφή υποβάθμιση των απαντήσεων του Claude Fable 5 όταν εντόπιζε χρήστες που εργάζονταν στην ανάπτυξη τεχνητής νοημοσύνης αιχμής, χαρακτηρίζοντάς το ως «λάθος συμβιβασμό».wired+1
Μια αποκάλυψη θαμμένη στην κάρτα συστήματος 319 σελίδων του μοντέλου αποκάλυψε αόρατους περιορισμούς που χρησιμοποιούσαν τροποποίηση προτροπών και διανύσματα καθοδήγησης, σε αντίθεση με τις ορατές δικλείδες ασφαλείας σε άλλους τομείς.fortune+1
Τα επισημασμένα αιτήματα θα υποχωρούν πλέον ορατά στο Claude Opus 4.8 σε όλες τις κατηγορίες, με το API να επιστρέφει τους λόγους άρνησης από αυτή την εβδομάδα.simonwillison+1

Η Anthropic παραδέχτηκε ότι «έκανε λάθος συμβιβασμό» με τους περιορισμούς ασφαλείας στο πρόσφατα κυκλοφορήσει μοντέλο Claude Fable 5, ανατρέποντας μια αμφιλεγόμενη πολιτική που υποβάθμιζε κρυφά την απόδοση της τεχνητής νοημοσύνης όταν εντόπιζε χρήστες που εργάζονταν στην ανάπτυξη τεχνητής νοημοσύνης αιχμής. Η συγγνώμη, που δόθηκε στο WIRED την Τρίτη, ήρθε μόλις δύο ημέρες μετά την κυκλοφορία του μοντέλου στις 9 Ιουνίου, η οποία προκάλεσε αντιδράσεις από ερευνητές, προγραμματιστές και ειδικούς σε θέματα πολιτικής τεχνητής νοημοσύνης.

Οι κρυφοί περιορισμοί προκαλούν κατακραυγή

«Αλλάζουμε τις δικλείδες ασφαλείας του Fable 5 για την ανάπτυξη LLM αιχμής ώστε να γίνουν ορατές», ανέφερε η Anthropic στη δήλωσή της. «Κάναμε λάθος συμβιβασμό και ζητάμε συγγνώμη που δεν βρήκαμε τη σωστή ισορροπία».simonwillison+1

Η διαμάχη επικεντρώθηκε σε μια αποκάλυψη θαμμένη στην κάρτα συστήματος 319 σελίδων του Fable 5, η οποία αποκάλυπτε ότι το μοντέλο υποβάθμιζε σιωπηλά τις απαντήσεις του όταν εντόπιζε αιτήματα σχετικά με την ανάπτυξη τεχνητής νοημοσύνης αιχμής, όπως η κατασκευή υποδομών εκπαίδευσης για μεγάλα γλωσσικά μοντέλα. Σε αντίθεση με τους άλλους περιορισμούς του Fable 5 γύρω από την κυβερνοασφάλεια και τη βιολογία — οι οποίοι ανακατευθύνουν ανοιχτά τους χρήστες στο λιγότερο ισχυρό Claude Opus 4.8 με μια ορατή ειδοποίηση — η δικλείδα ασφαλείας για την ανάπτυξη τεχνητής νοημοσύνης λειτουργούσε αόρατα, χρησιμοποιώντας τεχνικές όπως η τροποποίηση προτροπών και τα διανύσματα καθοδήγησης για να περιορίσει την αποτελεσματικότητα χωρίς να ενημερώσει τους χρήστες.fortune+1

Οι ευρύτερες δικλείδες ασφαλείας προκαλούν κριτική

Το Claude Fable 5 είναι το πρώτο δημόσια διαθέσιμο μοντέλο «Mythos-class» της Anthropic, το οποίο μοιράζεται την ίδια υποκείμενη αρχιτεκτονική με το περιορισμένο Claude Mythos 5, αλλά είναι τυλιγμένο σε ταξινομητές ασφαλείας που αναχαιτίζουν ερωτήματα που αγγίζουν την κυβερνοασφάλεια, τη βιολογία, τη χημεία και την απόσταξη μοντέλων. Όταν ενεργοποιούνται, οι απαντήσεις διεκπεραιώνονται από το Claude Opus 4.8. Η Anthropic δήλωσε ότι η εναλλακτική λύση ενεργοποιείται σε λιγότερο από το 5 τοις εκατό των συνεδριών.techcrunch+2

Ωστόσο, ερευνητές κυβερνοασφάλειας και βιολόγοι παραπονέθηκαν ότι οι ταξινομητές ήταν υπερβολικά ευρείς, επισημαίνοντας νόμιμη εργασία. Η ίδια η Anthropic παραδέχτηκε ότι η δικλείδα ασφαλείας για τη βιολογία και τη χημεία είναι υπερβολικά ευρεία και δήλωσε ότι σχεδιάζεται περιορισμός της.lushbinary+2

Αλλαγές έρχονται αυτή την εβδομάδα

Σύμφωνα με την αναθεωρημένη πολιτική, τα επισημασμένα αιτήματα θα υποχωρούν πλέον ορατά στο Opus 4.8 σε όλες τις περιορισμένες κατηγορίες. Στο API, τα επισημασμένα αιτήματα θα επιστρέφουν τον λόγο της άρνησής τους. «Θα το βλέπετε αυτό κάθε φορά που συμβαίνει», δήλωσε εκπρόσωπος της Anthropic.moneycontrol+1

Η εταιρεία χαρακτήρισε τους περιορισμούς απαραίτητους για να εμποδιστούν οι αντίπαλοι από το να χρησιμοποιήσουν το πιο ικανό μοντέλο της για να διαβρώσουν τα τεχνολογικά πλεονεκτήματα των ΗΠΑ σε τσιπ αιχμής και λογισμικό εκπαίδευσης, καθώς και για να επιβάλει τους όρους παροχής υπηρεσιών της που απαγορεύουν τη χρήση του Claude για την κατασκευή ανταγωνιστικών συστημάτων τεχνητής νοημοσύνης. Το επεισόδιο έχει εντείνει τη συζήτηση σχετικά με το πού βρίσκεται το όριο μεταξύ της υπεύθυνης ανάπτυξης και της εξουδετέρωσης της χρησιμότητας ενός μοντέλου — μια ένταση που η Anthropic πιθανότατα θα αντιμετωπίσει ξανά καθώς προετοιμάζεται για μια αναφερόμενη αρχική δημόσια προσφορά (IPO).fortune+1

Sources (36)

1 Anthropic Walks Back Policy That Could Have 'Sabotaged ... www.wired.com
2 Anthropic accused of 'secret sabotage' as Claude Fable 5 ... fortune.com
3 Why Anthropic's ‘Mythos-Class’ Claude Fable 5 faced backlash from developers, researchers www.moneycontrol.com
4 Anthropic Walks Back Policy That Could Have 'Sabotaged' ... simonwillison.net
5 Anthropic releases Claude Fable, a version of Mythos, days after warning AI is becoming too dangerous techcrunch.com
6 Anthropic releases Claude Fable 5, a 'Mythos-class' AI model with safeguards www.businessinsider.com
7 Anthropic's 'safe' Mythos-class model won't answer ... www.businessinsider.com
8 Claude Fable 5 vs Mythos 5: The Safety Split Explained lushbinary.com
9 Cybersecurity researchers aren't happy about the ... techcrunch.com
10 Anthropic apologises, revises Claude Fable 5's AI development restrictions after backlash www.moneycontrol.com
11 Anthropic Releases New ‘Mythos-Class’ Model to General Public With Guardrails www.wsj.com
12 Anthropic just released Claude Fable 5, the first of its Mythos ... www.instagram.com
13 Anthropic's new Claude Fable 5 is the same base model as ... www.zdnet.com
14 Anthropic releases Mythos-like AI model to the public two ... www.cnbc.com
15 Anthropic is secretly degrading Fable 5 when it thinks you' ... www.reddit.com
16 Claude Fable 5 & Claude Mythos 5 Benchmarks Explained www.vellum.ai
17 Anthropic just released Claude Fable 5 ... www.instagram.com
18 r/ClaudeAI - Introducing Claude Fable 5 www.reddit.com
19 Claude Fable 5: Anthropic releases a 'safe' version of ... mashable.com
20 Claude Fable 5 and Claude Mythos 5 anthropic.com
21 Claude Fable 5: Anthropic admits "wrong tradeoff" after invisibly throttling rival AI researchers the-decoder.com
22 Anthropic to make Claude Fable 5 restrictions visible after criticism over hidden safeguards: Report www.storyboard18.com
23 Anthropic says these topics are too dangerous to let its ... arstechnica.com
24 📰 BREAKING — JUNE 9 Fable 5 : r/vibecoding www.reddit.com
25 Anthropic Just Shipped Fable 5 (Mythos) — Its Most Capable ... aiplusfounderscommunity.substack.com
26 Claude Fable 5 and Claude Mythos 5 www.anthropic.com
27 Why is fable 5 included only till June 22? Does anthropic ... www.reddit.com
28 Very pleased to hear Anthropic have walked back this ... x.com
29 Using Claude Fable 5 means opting into data collection mashable.com
30 Claude Fable 5: Anthropic Locks Down Cyber and Bio aardwolfsecurity.com
31 Anthropic Walks Back Policy That Could Have 'Sabotaged' ... www.reddit.com
32 Anthropic says these topics are too dangerous to let its ... arstechnica.com
33 "We're changing Fable 5's safeguards for frontier LLM ... www.facebook.com
34 Anthropic is releasing Claude Fable 5, its first Mythos www.facebook.com
35 Claude Fable 5 review: what the new Mythos model gets ... www.lennysnewsletter.com
36 Unpopular opinion: Claude Fable 5 feels like a gimmick www.reddit.com

Breaking News

Popular News

Η Anthropic ζητά συγγνώμη για τον μυστικό περιορισμό του Claude Fable 5

Οι κρυφοί περιορισμοί προκαλούν κατακραυγή

Οι ευρύτερες δικλείδες ασφαλείας προκαλούν κριτική

Αλλαγές έρχονται αυτή την εβδομάδα

Υποβολή απάντησηςΑκύρωση απάντησης

Stay informed and not overwhelmed, subscribe now!

Newsletter Subscribe

Οι κρυφοί περιορισμοί προκαλούν κατακραυγή

Οι ευρύτερες δικλείδες ασφαλείας προκαλούν κριτική

Αλλαγές έρχονται αυτή την εβδομάδα

Σχετικά Άρθρα

Το JWST εντόπισε τον πιο μακρινό ραβδωτό σπειροειδή γαλαξία που έχει παρατηρηθεί ποτέ

Η Huawei δημοσιεύει δεδομένα μαζικής παραγωγής που υποστηρίζουν τον Νόμο Κλιμάκωσης Tau

Η Micron ξεκινά την κατασκευή επέκτασης 9 δισ. δολαρίων στη Χιροσίμα για τσιπ μνήμης AI

Υποβολή απάντησηςΑκύρωση απάντησης

Stay informed and not overwhelmed, subscribe now!