Newsletter Subscribe
Enter your email address below and subscribe to our newsletter

cybersecuritynews+1TechCrunchcybersecuritynews+1Das leistungsstärkste öffentlich verfügbare KI-Modell von Anthropic, Claude Fable 5, wurde Berichten zufolge nur einen Tag nach seiner Veröffentlichung am 9. Juni von einem bekannten KI-Red-Teamer umgangen, was neue Fragen zur Beständigkeit von KI-Sicherheitsmaßnahmen aufwirft, selbst wenn Modelle leistungsfähiger werden.
Der produktive KI-Jailbreaker "Pliny the Liberator" postete am 10. Juni auf X, dass er und ein Team automatisierter Agenten die Sicherheitsklassifikatoren von Fable 5 erfolgreich umgangen hätten, indem sie das nutzten, was er als "Rudeljagd" bezeichnete – einen koordinierten Multi-Agenten-Angriff, der mehrere Techniken kombinierte. Laut Cybersecurity News umfassten die Methoden Unicode- und kyrillische Zeichenersetzung zur Umgehung von Keyword-Filtern, Long-Context-Referenz-Tracking, Taxonomie- und Dokumentstruktur-Framing, Fiktions- und Narrativ-Framing sowie einen Dekompositions-Rekompositions-Ansatz, bei dem schädliche Informationen in harmlosen Fragmenten extrahiert und wieder zusammengesetzt wurden.cybersecuritynews+1
Die letzte Technik erwies sich als am effektivsten. "Den Prozess selbst zu verbessern, wie bei der Birch-Reduktion oder reduktiven Aminierung, ist viel machbarer", als direkt nach einer benannten schädlichen Verbindung zu fragen, schrieb Pliny und fügte hinzu, dass eine zuvor gejailbreakte Claude Opus 4.8-Instanz im Backend unterstützte. Screenshots, die der Forscher teilte, zeigten Ausgaben, darunter Schritt-für-Schritt-Anleitungen zur Ausnutzung von Stack-Buffer-Overflows und chemische Synthesewege. Pliny veröffentlichte auch das, was er als den etwa 120.000 Zeichen langen System-Prompt von Fable 5 auf GitHub beschrieb, und legte damit die internen Sicherheitsanweisungen offen, die Anthropic zur Steuerung des Modells verwendet.x+2
Anthropic hatte Fable 5 als gegen solche Angriffe gehärtet positioniert. Ein TechCrunch-Bericht vom Tag der Veröffentlichung stellte fest, dass das Unternehmen erklärte, ein externes Bug-Bounty-Programm habe "in über 1.000 Teststunden keine universellen Jailbreaks hervorgebracht" und dass auch externe Red-Teaming-Organisationen keine universellen Umgehungen gefunden hätten. Die Systemkarte des Unternehmens gab an, dass das öffentliche Bug-Bounty-Programm bis zum 5. Juni etwa 100.000 Versuche erhalten habe. Als Vorsichtsmaßnahme führte Anthropic eine obligatorische 30-tägige Datenspeicherungsrichtlinie für den gesamten Fable 5-Verkehr ein, um sich gegen neuartige Angriffe zu verteidigen.B2B News Network Inc.+2
Der schnelle Durchbruch folgt einem Muster, das sich bei großen KI-Veröffentlichungen etabliert hat. Pliny hat zuvor Jailbreaks von Claude Opus 4.8 innerhalb von Minuten nach dessen Start Ende Mai, Claude Opus 4.7 im April und den GPT-OSS-Modellen von OpenAI an deren Veröffentlichungstag im letzten Jahr behauptet. Anthropic hat sich noch nicht öffentlich zu den Fable 5-Jailbreak-Behauptungen oder dem geleakten System-Prompt geäußert.X (formerly Twitter)+3