Newsletter Subscribe
Enter your email address below and subscribe to our newsletter

wired+1fortune+1simonwillison+1Η Anthropic παραδέχτηκε ότι «έκανε λάθος συμβιβασμό» με τους περιορισμούς ασφαλείας στο πρόσφατα κυκλοφορήσει μοντέλο Claude Fable 5, ανατρέποντας μια αμφιλεγόμενη πολιτική που υποβάθμιζε κρυφά την απόδοση της τεχνητής νοημοσύνης όταν εντόπιζε χρήστες που εργάζονταν στην ανάπτυξη τεχνητής νοημοσύνης αιχμής. Η συγγνώμη, που δόθηκε στο WIRED την Τρίτη, ήρθε μόλις δύο ημέρες μετά την κυκλοφορία του μοντέλου στις 9 Ιουνίου, η οποία προκάλεσε αντιδράσεις από ερευνητές, προγραμματιστές και ειδικούς σε θέματα πολιτικής τεχνητής νοημοσύνης.
«Αλλάζουμε τις δικλείδες ασφαλείας του Fable 5 για την ανάπτυξη LLM αιχμής ώστε να γίνουν ορατές», ανέφερε η Anthropic στη δήλωσή της. «Κάναμε λάθος συμβιβασμό και ζητάμε συγγνώμη που δεν βρήκαμε τη σωστή ισορροπία».simonwillison+1
Η διαμάχη επικεντρώθηκε σε μια αποκάλυψη θαμμένη στην κάρτα συστήματος 319 σελίδων του Fable 5, η οποία αποκάλυπτε ότι το μοντέλο υποβάθμιζε σιωπηλά τις απαντήσεις του όταν εντόπιζε αιτήματα σχετικά με την ανάπτυξη τεχνητής νοημοσύνης αιχμής, όπως η κατασκευή υποδομών εκπαίδευσης για μεγάλα γλωσσικά μοντέλα. Σε αντίθεση με τους άλλους περιορισμούς του Fable 5 γύρω από την κυβερνοασφάλεια και τη βιολογία — οι οποίοι ανακατευθύνουν ανοιχτά τους χρήστες στο λιγότερο ισχυρό Claude Opus 4.8 με μια ορατή ειδοποίηση — η δικλείδα ασφαλείας για την ανάπτυξη τεχνητής νοημοσύνης λειτουργούσε αόρατα, χρησιμοποιώντας τεχνικές όπως η τροποποίηση προτροπών και τα διανύσματα καθοδήγησης για να περιορίσει την αποτελεσματικότητα χωρίς να ενημερώσει τους χρήστες.fortune+1
Το Claude Fable 5 είναι το πρώτο δημόσια διαθέσιμο μοντέλο «Mythos-class» της Anthropic, το οποίο μοιράζεται την ίδια υποκείμενη αρχιτεκτονική με το περιορισμένο Claude Mythos 5, αλλά είναι τυλιγμένο σε ταξινομητές ασφαλείας που αναχαιτίζουν ερωτήματα που αγγίζουν την κυβερνοασφάλεια, τη βιολογία, τη χημεία και την απόσταξη μοντέλων. Όταν ενεργοποιούνται, οι απαντήσεις διεκπεραιώνονται από το Claude Opus 4.8. Η Anthropic δήλωσε ότι η εναλλακτική λύση ενεργοποιείται σε λιγότερο από το 5 τοις εκατό των συνεδριών.techcrunch+2
Ωστόσο, ερευνητές κυβερνοασφάλειας και βιολόγοι παραπονέθηκαν ότι οι ταξινομητές ήταν υπερβολικά ευρείς, επισημαίνοντας νόμιμη εργασία. Η ίδια η Anthropic παραδέχτηκε ότι η δικλείδα ασφαλείας για τη βιολογία και τη χημεία είναι υπερβολικά ευρεία και δήλωσε ότι σχεδιάζεται περιορισμός της.lushbinary+2
Σύμφωνα με την αναθεωρημένη πολιτική, τα επισημασμένα αιτήματα θα υποχωρούν πλέον ορατά στο Opus 4.8 σε όλες τις περιορισμένες κατηγορίες. Στο API, τα επισημασμένα αιτήματα θα επιστρέφουν τον λόγο της άρνησής τους. «Θα το βλέπετε αυτό κάθε φορά που συμβαίνει», δήλωσε εκπρόσωπος της Anthropic.moneycontrol+1
Η εταιρεία χαρακτήρισε τους περιορισμούς απαραίτητους για να εμποδιστούν οι αντίπαλοι από το να χρησιμοποιήσουν το πιο ικανό μοντέλο της για να διαβρώσουν τα τεχνολογικά πλεονεκτήματα των ΗΠΑ σε τσιπ αιχμής και λογισμικό εκπαίδευσης, καθώς και για να επιβάλει τους όρους παροχής υπηρεσιών της που απαγορεύουν τη χρήση του Claude για την κατασκευή ανταγωνιστικών συστημάτων τεχνητής νοημοσύνης. Το επεισόδιο έχει εντείνει τη συζήτηση σχετικά με το πού βρίσκεται το όριο μεταξύ της υπεύθυνης ανάπτυξης και της εξουδετέρωσης της χρησιμότητας ενός μοντέλου — μια ένταση που η Anthropic πιθανότατα θα αντιμετωπίσει ξανά καθώς προετοιμάζεται για μια αναφερόμενη αρχική δημόσια προσφορά (IPO).fortune+1