Claude Mythos findet Tausende Zero-Days – was das für Sicherheit wirklich bedeutet

Ein neues KI-Modell von Anthropic sorgt gerade für eine der heftigsten Erschütterungen in der IT-Sicherheit seit Jahren: Die Claude Mythos Preview soll in wenigen Tagen Tausende bislang unbekannte Schwachstellen in allen großen Betriebssystemen und allen wichtigen Webbrowsern identifiziert haben – darunter Lücken, die offenbar seit Jahrzehnten im Code schlummern.

Die Meldung klingt wie ein Plot aus einem Cyberpunk-Roman: Ein generatives KI-Modell liest Quellcode und Konfigurationen und spuckt in Serie Zero-Day-Vulnerabilities aus, gegen die es bisher keine Patches gibt. Sicherheitsteams und Hersteller geraten unter Zugzwang, während sich eine unangenehme Frage abzeichnet: Wenn eine öffentlich angekündigte KI so etwas kann – was können dann die Tools, über die niemand spricht?

Vom Chatbot zum Code-Auditor: Was Claude Mythos besonders macht

Anthropic ist bislang vor allem durch seine Claude-Modelle als dialogorientierte KI bekannt. Mit der Claude Mythos Preview verschiebt das Unternehmen die Wahrnehmung deutlich: Weg vom smarten Assistenten, hin zu einem Werkzeug für tiefgehende Code- und Systemanalyse.

Der Kern der Meldung: Das Modell wurde auf große Codebasen, Konfigurationsdateien und andere technische Artefakte losgelassen und identifizierte in kürzester Zeit eine riesige Zahl an Problemen, die nach Einschätzung der beteiligten Teams teils sicherheitskritisch sind. Darunter sollen sich Schwachstellen in:

allen großen Betriebssystemen
allen wichtigen Webbrowsern

befinden – ohne dass Anthropic im aktuellen Kontext öffentlich spezifische Namen oder Versionen nennt.

Der entscheidende Punkt ist weniger das einzelne Modell, sondern das Paradigmen-Shift: KI wird hier nicht als smarter Helfer „am Rand“ eingesetzt, sondern als zentrales Werkzeug im Security-Workflow, das in Bereichen arbeitet, in denen bisher menschliche Experten und spezialisierte Scanner wochen- bis monatelang beschäftigt waren.

Warum generative KI an alte Bugs kommt, die Jahrzehnte überlebt haben

Dass es überhaupt Schwachstellen gibt, die seit Jahrzehnten unentdeckt in Codebasen überleben, ist in der Branche kein Geheimnis. Klassische Werkzeuge wie statische Codeanalyse, Fuzzing oder manuelle Reviews stoßen aus verschiedenen Gründen an Grenzen:

Legacy-Code ist gigantisch: Betriebssysteme und Browser bestehen aus Millionen bis zig Millionen Zeilen Code, teils in Sprachen und Paradigmen, die heute kaum noch jemand anfasst.
Kontext fehlt: Viele klassische Scanner melden zwar Anomalien, verstehen aber nicht, wie sie sich über mehrere Module, Bibliotheken oder Schichten hinweg auswirken.
Priorisierung ist schwierig: Teams verlieren sich in False Positives oder Low-Impact-Bugs, während kritische Pfade übersehen werden.

Hier setzt ein Modell wie Claude Mythos an. Generative KI bringt drei Fähigkeiten mit, die in diesem Kontext den Unterschied machen können:

Semantisches Verständnis von Code: Anstatt nur nach Pattern zu suchen, kann die KI die Logik eines Programms nachvollziehen. Sie „liest“ Funktionen, Datenflüsse und Kontrollstrukturen ähnlich wie ein Mensch – nur in großem Maßstab.
Korrelieren von Informationen über viele Dateien hinweg: Ein Bug, der sich in der Interaktion von Modulen über mehrere Repositories hinweg manifestiert, ist für klassische Tools schwer greifbar. Für ein Modell, das Millionen Token Kontext verarbeiten kann, ist das ein lösbares Problem.
Natürliche Beschreibung von Risiken: Statt nur einen kryptischen Warncode auszugeben, kann die KI den potenziellen Exploit-Pfad in Alltagssprache erklären, inklusive Szenarien und Schweregrad.

Das erklärt, warum plötzlich Zero-Days in großer Zahl sichtbar werden – selbst in ausgereiften, seit Jahren geprüften Produkten. Die Systeme waren nicht „sicher“, sondern lediglich unter-analysiert.

Zero-Day-Flut: Segen für Sicherheitsteams, Risiko für das Ökosystem

Die unmittelbare Reaktion auf die Meldung ist zweigeteilt. Auf der einen Seite steht die Hoffnung: Endlich könnten viele Altlasten entdeckt und behoben werden. Auf der anderen Seite die Sorge: Was, wenn diese Fähigkeiten zuerst im Untergrund skaliert werden?

Die Chancen

Schnellere Security-Audits: Was früher Monate dauerte, könnte mit einem Modell wie Claude Mythos in Tagen oder Stunden erledigt werden – zumindest als erste Grobanalyse großer Codebasen.
Breitere Abdeckung: Nicht nur neue Commits oder High-Priority-Projekte können geprüft werden, sondern auch schlecht dokumentierter Legacy-Code, der bisher unangetastet blieb.
Bessere Dokumentation von Risiken: Entwickler:innen bekommen nicht nur einen „Bug-Alarm“, sondern verständliche Erklärungen. Das erleichtert Fixes und reduziert Missverständnisse zwischen Security- und Produktteams.

Die Risiken

Asymmetrie verschiebt sich erneut: Wenn solche Fähigkeiten breit verfügbar werden, können nicht nur Hersteller, sondern auch Angreifer Code im großen Stil nach Schwachstellen durchsuchen.
Responsible Disclosure skaliert schlecht: Tausende Zero-Days auf einmal sind organisatorisch kaum sauber handhabbar. Priorisierung, Koordination mit Herstellern und Patch-Rollouts werden zum Nadelöhr.
Exploit-Fenster: Zwischen Entdeckung, interner Dokumentation und Patch-Verfügbarkeit können Monate liegen – Zeit, in der eine geleakte oder kompromittierte Analyse zur Waffe werden könnte.

Genau daher ist der Umgang mit den Funden entscheidend. Im aktuellen Kontext deutet alles darauf hin, dass die identifizierten Schwachstellen zunächst im engen Kreis mit Herstellern und Sicherheitsteams geteilt werden und nicht als frei zugängliche Datenbank im Netz landen.

Patch-Rennen: Was Hersteller jetzt tun müssen

Wenn eine KI Tausende Zero-Days auf einen Schlag meldet, entsteht ein paradoxes Bild: Die Software wird kurzfristig unsicherer, weil wir mehr über ihre Schwachstellen wissen. Langfristig kann sie dadurch sicherer werden – falls Hersteller konsequent reagieren.

Für Betriebssystem- und Browser-Teams bedeutet das konkret:

Neue Priorisierungslogik: Klassische Prozesse, die jede Meldung einzeln durchlaufen, skalieren nicht mehr. Teams müssen lernen, Batches von Schwachstellen zu bewerten, zu clustern und nach Exploit-Potenzial zu sortieren.
Enge Verzahnung mit KI-Analysen: Anstatt KI-Ergebnisse als „externen Report“ zu behandeln, werden sie Teil der internen Toolchains – inklusive automatisierter Regressionstests, PoC-Generierung und Fix-Vorschlägen.
Kommunikation neu denken: Wenn Patches künftig häufiger auf „per KI entdeckte Schwachstellen“ zurückgehen, braucht es klare Aussagen gegenüber Nutzenden und Unternehmen, ohne unnötige Panik zu schüren.

Gleichzeitig stellt sich die Frage, wie viel Transparenz sinnvoll ist: Sollen Hersteller offenlegen, dass bestimmte Fixes auf KI-Analysen basieren? Oder verschärft das nur die Wahrnehmung, dass bisherige Security-Prozesse nicht ausgereicht haben?

Security-Industrie im Umbruch: Bug Bounties, Pen-Tests, Consulting

Die Claude-Mythos-Meldung trifft eine Branche, die ohnehin bereits von KI getrieben umgebaut wird. Viele etablierte Rollen stehen vor einer Neudefinition.

Bug-Bounty-Programme unter Druck

Bug-Bounty-Plattformen leben davon, dass viele einzelne Forschende Schwachstellen melden. Wenn jedoch ein KI-Modell binnen Stunden Tausende Bugs findet, geraten diese Modelle ins Wanken:

Skalierbare Funde: Wer Zugang zu leistungsfähigen KI-Modellen hat, kann theoretisch massenhaft validierte Reports produzieren.
Vergütungsmodelle: Programme sind nicht darauf ausgelegt, plötzlich Hunderte Zero-Days aus einer Quelle zu entlohnen – die Kalkulation basiert auf vereinzelten Funden.
Policy-Änderungen: Anbieter könnten Einschränkungen einführen, um rein KI-generierte Massenreports zu begrenzen oder anders zu behandeln.

Bug-Bounty wird damit weniger zu einer Jagd nach Einzelbugs und mehr zu einer Frage: Wer kann KI-Analysen sinnvoll kuratieren, validieren und priorisieren?

Penetrationstests und Red-Teaming

Auch klassische Penetrationstests verändern sich. Ein Modell wie Claude Mythos kann:

Code-Audits vorbereiten, indem es offensichtliche Schwachstellen vorab markiert
Exploit-Ideen skizzieren, die menschliche Teams anschließend verfeinern
Berichte strukturieren und technische Details in verständliche Sprache übersetzen

Was bleibt, ist der menschliche Faktor: Bedrohungsmodellierung, Kreativität, Intuition. Aber der Anteil der manuellen Routinearbeit sinkt deutlich. Die Rolle verschiebt sich von „Finden“ hin zu „Bewerten und Ausnutzen“.

Regulierung und Ethik: Wie viel Offensive darf eine KI können?

Ein Modell, das Tausende Zero-Days in zentralen Komponenten der digitalen Infrastruktur findet, wirft zwangsläufig regulatorische und ethische Fragen auf.

Zugangskontrolle und Nutzungsbeschränkungen

Ein offensichtlicher Ansatz ist, die leistungsfähigsten Varianten solcher Modelle nicht frei zugänglich zu machen. Es ist denkbar, dass Anbieter wie Anthropic bestimmte Fähigkeiten nur:

unter vertraglich geregelten Bedingungen,
an geprüfte Security-Teams und Unternehmen,
mit Monitoring und Logging der Nutzung

bereitstellen.

Gleichzeitig bleibt die Realität: Forschungsfortschritte lassen sich langfristig kaum monopolisieren. Was heute in einer „Preview“ unter kontrollierten Bedingungen läuft, kann morgen in Open-Source-Form existieren – vielleicht mit geringerer, aber immer noch beachtlicher Leistungsfähigkeit.

Verantwortungsvolle Veröffentlichung von Forschung

Die Branche kennt bereits das Konzept der verantwortungsvollen Offenlegung (Responsible Disclosure) bei Sicherheitslücken. Ein ähnliches Prinzip beginnt sich auch für KI-Fähigkeiten abzuzeichnen: Nicht jede technische Machbarkeit wird unmittelbar inklusive aller Details veröffentlicht.

Im Umfeld von Claude Mythos stellt sich daher die Frage, wie viel man über:

genaue Trainingsdaten,
Architekturdetails und
spezifische Prompting-Strategien für Vulnerability-Finding

öffentlich macht. Zu wenig Transparenz bremst Forschung und unabhängige Audits, zu viel Transparenz erleichtert Missbrauch.

Was das für Unternehmen und Entwickler:innen bedeutet

Jenseits der Schlagzeilen über Betriebssysteme und Browser stellt sich die Frage, was diese Entwicklung für normale Softwareprojekte bedeutet – von Start-ups bis zu gewachsenen Enterprise-Anwendungen.

Security wird zur KI-Disziplin

In vielen Teams ist „Security“ noch immer eine Aufgabe, die spät im Prozess adressiert wird – oft kurz vor dem Release. Mit Tools der Claude-Mythos-Klasse zeichnet sich ein anderer Workflow ab:

Frühe Integration: Automatisierte KI-Audits beim Commit oder Pull Request werden zum Standard.
Kontinuierliche Überwachung: Neu trainierte Modelle können bestehende Codebasen regelmäßig neu scannen und ältere Entscheidungen mit aktuellen Erkenntnissen abgleichen.
Schulungs-Effekt: Entwickler:innen lernen durch direkt im Code annotierte Hinweise, welche Patterns riskant sind – in Sprache, die ihren Kontext berücksichtigt.

Legacy-Projekte: Die schmerzhafte Abkürzung

Gerade alte Projekte ohne saubere Tests und Dokumentation könnten von KI-gestützten Audits profitieren – wenn die Ergebnisse richtig interpretiert werden. Die Gefahr: Eine Flut an Findings, die Teams schlicht überfordert.

Statt alles gleichzeitig anzugehen, dürfte sich ein pragmatisches Muster etablieren:

Kritische Pfade zuerst: Komponenten mit direktem Kontakt zu Nutzer:innen, Zahlungsdaten oder Systemgrenzen werden priorisiert.
Risiko-basierte Filter: Nur Findings ab einem bestimmten Schweregrad wandern in den unmittelbaren Backlog.
Langfristiger Abbau: Der Rest wird über Monate oder Jahre parallel zu neuen Features abgetragen.

Was bleibt, wenn der Hype sich legt?

Die Claude-Mythos-Preview ist ein deutliches Signal, wo die Reise hingeht: Software-Sicherheit wird künftig ohne KI nicht mehr denkbar sein. Und umgekehrt: Wer KI-Modelle entwickelt, trägt unmittelbare Verantwortung für die Resilienz der digitalen Infrastruktur.

Mittelfristig dürfte die aktuelle Aufregung drei dauerhafte Spuren hinterlassen:

Neue Benchmark-Fragen: Bei der Bewertung von KI-Modellen wird „Kann es Code schreiben?“ ergänzt um „Wie gut findet es Sicherheitslücken?“.
Standardisierung von KI-Security-Workflows: Von IDE-Plugins bis zu CI/CD-Pipelines entstehen Best Practices, wie Modelle à la Claude Mythos sicher und effektiv integriert werden.
Bewusstseinswandel: Die Erkenntnis, dass jahrzehntealte Schwachstellen in Kernkomponenten möglich sind, wird das Vertrauen in bisherige Prüfprozesse nachhaltig verändern – und den Druck erhöhen, Security als laufenden Prozess zu begreifen, nicht als Audit-Ereignis.

Die eigentliche Frage ist weniger, ob KI Tausende Zero-Days finden kann – das hat die aktuelle Entwicklung beantwortet. Spannender wird, wer diese Fähigkeit zuerst flächendeckend operationalisiert: die Verteidiger oder ihre Gegenspieler.