Anthropic's Claude Fable 5 Tage nach Start gejailbreakt, behauptet Forscher

Der Forscher "Pliny the Liberator" gab an, die Sicherheitsebenen von Claude Fable 5 mithilfe koordinierter Multi-Agenten-Angriffe durchbrochen zu haben, die Unicode-Tricks und Dekompositionstaktiken kombinierten.cybersecuritynews+1
Anthropic hatte behauptet, dass ein externes Bug-Bounty-Programm vor der Veröffentlichung des Modells am 9. Juni in über 1.000 Teststunden keine universellen Jailbreaks gefunden habe.TechCrunch
Der Forscher veröffentlichte zudem das, was er als vollständigen System-Prompt von Fable 5 auf GitHub beschrieb; Anthropic hat sich öffentlich nicht zu den Behauptungen geäußert.cybersecuritynews+1

Das leistungsstärkste öffentlich verfügbare KI-Modell von Anthropic, Claude Fable 5, wurde Berichten zufolge nur einen Tag nach seiner Veröffentlichung am 9. Juni von einem bekannten KI-Red-Teamer umgangen, was neue Fragen zur Beständigkeit von KI-Sicherheitsmaßnahmen aufwirft, selbst wenn Modelle leistungsfähiger werden.

Die Umgehung

Der produktive KI-Jailbreaker "Pliny the Liberator" postete am 10. Juni auf X, dass er und ein Team automatisierter Agenten die Sicherheitsklassifikatoren von Fable 5 erfolgreich umgangen hätten, indem sie das nutzten, was er als "Rudeljagd" bezeichnete – einen koordinierten Multi-Agenten-Angriff, der mehrere Techniken kombinierte. Laut Cybersecurity News umfassten die Methoden Unicode- und kyrillische Zeichenersetzung zur Umgehung von Keyword-Filtern, Long-Context-Referenz-Tracking, Taxonomie- und Dokumentstruktur-Framing, Fiktions- und Narrativ-Framing sowie einen Dekompositions-Rekompositions-Ansatz, bei dem schädliche Informationen in harmlosen Fragmenten extrahiert und wieder zusammengesetzt wurden.cybersecuritynews+1

Die letzte Technik erwies sich als am effektivsten. "Den Prozess selbst zu verbessern, wie bei der Birch-Reduktion oder reduktiven Aminierung, ist viel machbarer", als direkt nach einer benannten schädlichen Verbindung zu fragen, schrieb Pliny und fügte hinzu, dass eine zuvor gejailbreakte Claude Opus 4.8-Instanz im Backend unterstützte. Screenshots, die der Forscher teilte, zeigten Ausgaben, darunter Schritt-für-Schritt-Anleitungen zur Ausnutzung von Stack-Buffer-Overflows und chemische Synthesewege. Pliny veröffentlichte auch das, was er als den etwa 120.000 Zeichen langen System-Prompt von Fable 5 auf GitHub beschrieb, und legte damit die internen Sicherheitsanweisungen offen, die Anthropic zur Steuerung des Modells verwendet.x+2

Anthropics Behauptungen vor dem Start

Anthropic hatte Fable 5 als gegen solche Angriffe gehärtet positioniert. Ein TechCrunch-Bericht vom Tag der Veröffentlichung stellte fest, dass das Unternehmen erklärte, ein externes Bug-Bounty-Programm habe "in über 1.000 Teststunden keine universellen Jailbreaks hervorgebracht" und dass auch externe Red-Teaming-Organisationen keine universellen Umgehungen gefunden hätten. Die Systemkarte des Unternehmens gab an, dass das öffentliche Bug-Bounty-Programm bis zum 5. Juni etwa 100.000 Versuche erhalten habe. Als Vorsichtsmaßnahme führte Anthropic eine obligatorische 30-tägige Datenspeicherungsrichtlinie für den gesamten Fable 5-Verkehr ein, um sich gegen neuartige Angriffe zu verteidigen.B2B News Network Inc.+2

Ein bekanntes Muster

Der schnelle Durchbruch folgt einem Muster, das sich bei großen KI-Veröffentlichungen etabliert hat. Pliny hat zuvor Jailbreaks von Claude Opus 4.8 innerhalb von Minuten nach dessen Start Ende Mai, Claude Opus 4.7 im April und den GPT-OSS-Modellen von OpenAI an deren Veröffentlichungstag im letzten Jahr behauptet. Anthropic hat sich noch nicht öffentlich zu den Fable 5-Jailbreak-Behauptungen oder dem geleakten System-Prompt geäußert.X (formerly Twitter)+3

Sources (27)

1 Anthropic's Claude Fable 5 Jailbroken to Generate Stack Exploits cybersecuritynews.com
2 JAILBREAK ALERT 🚨 ANTHROPIC ... x.com
3 Anthropic's Claude Fable is a version of Mythos the public can access today | TechCrunch techcrunch.com
4 Anthropic’s Claude Fable 5 AI Model Jailbroken for Stack Exploit Creation gbhackers.com
5 A Frontier Model Lands In The Middle Of An IPO Stampede www.b2bnn.com
6 [PDF] System Card: Claude Fable 5 & Claude Mythos 5 - Anthropic www-cdn.anthropic.com
7 JAILBREAK ALERT ⚡️ ANTHROPIC: PWNED CLAUDE-OPUS-4.8 ... x.com
8 JAILBREAK ALERT ANTHROPIC: SELF-PWNED OPUS-4.7: SELF ... x.com
9 OpenAI's 'Jailbreak-Proof' New Models? Hacked on Day One finance.yahoo.com
10 Pliny the Liberator x.com
11 Anthropic's Latest Model Fable 5 Arrives With Power And Caveats www.forbes.com
12 Claude Fable 5 | Gemini Enterprise Agent Platform docs.cloud.google.com
13 ‼️Anthropic's Claude Fable 5 Jailbroken to Generate Stack Exploits ... x.com
14 Claude Opus 4.8 JAILBREAK x.com
15 Claude 5 Release Date: Q2-Q3 2026 Prediction & Latest ... claude5.com
16 Anthropic rolls out public version of Mythos without cybersecurity capability ground.news
17 Anthropic's Mythos-Class Model - Claude Fable 5 overchat.ai
18 Anthropic introduces capable system guarding AI models against jailbreaks cybernews.com
19 Anthropic launches Claude Fable 5: The new benchmark for AI performance jang.com.pk
20 AI researcher claims he's already bypassed Anthropic's Fable 5 guardrails www.tradingview.com
21 Anthropic's System Prompt for Claude Leaked on GitHub | B Lab b-lab.team
22 The whole system prompt of Claude has been leaked on GitHub, 24,000 tokens… | Eric Vyacheslav | 14 comments www.linkedin.com
23 Research: Claude system prompts as a git timeline simonwillison.net
24 Someone leaked Claude's entire system prompt on GitHub. ... x.com
25 Eric Vyacheslav's Post - LinkedIn www.linkedin.com
26 Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 on X: "🤠 JAILBREAK ALERT 🤠 ANTHROPIC: PWNED 😎 OPUS-4.5: LIBERATED 🦅 Welcome to the newest member of the Claude family, the "best model in the world for coding, agents, and computer use." And don't forget drug synthesis and weapons! 😊 Guardrails feel about the same as last https://t.co/KsHM79qE8k" / X x.com
27 The whole system prompt of Claude has been leaked on GitHub, 24,000 tokens long. It defines model behavior, tool use, and citation format. www.reddit.com

Breaking News

Popular News

Anthropic’s Claude Fable 5 Tage nach Start gejailbreakt, behauptet Forscher

Die Umgehung

Anthropics Behauptungen vor dem Start

Ein bekanntes Muster

Schreibe einen KommentarAntwort abbrechen

Stay informed and not overwhelmed, subscribe now!

Newsletter Subscribe

Die Umgehung

Anthropics Behauptungen vor dem Start

Ein bekanntes Muster

Ähnliche Beiträge

JWST entdeckt die am weitesten entfernte Balkenspiralgalaxie, die je gesehen wurde

Huawei veröffentlicht Massenproduktionsdaten zur Untermauerung des Tau-Skalierungsgesetzes

Micron beginnt Bau der 9-Milliarden-Dollar-Erweiterung in Hiroshima für KI-Speicherchips

Schreibe einen KommentarAntwort abbrechen

Stay informed and not overwhelmed, subscribe now!