„Die Welt ist in Gefahr“: Chef für anthropische KI-Sicherheit tritt zurück und gibt eindringliche Warnung heraus

Von g.calder

Mrinank Sharma, Leiter der Abteilung für Sicherheitsforschung bei Anthropic, hat gerade seinen Posten bei dem KI-Unternehmen gekündigt. In seinem öffentlichen Brief erklärte er, dass „die Welt in Gefahr ist“. Diese Warnung stammt nicht von einem Aktivisten, externen Kritiker oder Zyniker, sondern von einer hochrangigen Persönlichkeit, deren Aufgabe es war, katastrophale Risiken in einem der weltweit führenden Entwicklungslabors zu reduzieren.

Sharma schrieb, dass die Menschheit sich offenbar „einer Schwelle nähert, an der unsere Weisheit in gleichem Maße wachsen muss wie unsere Fähigkeit, die Welt zu beeinflussen, damit wir nicht mit den Konsequenzen konfrontiert werden.“ Er beschrieb Gefahren, die nicht nur von künstlicher Intelligenz und Biowaffen ausgehen, sondern von „einer ganzen Reihe miteinander verbundener Krisen, die sich gerade in diesem Moment entfalten.“

Er räumte auch ein, dass es eine interne Belastung sei, zu versuchen, „unsere Werte unser Handeln bestimmen zu lassen“, während man ständig unter Druck stehe, das Wichtigste beiseite zu lassen. Einige Tage später verließ er das Labor.

Sein Weggang erfolgt zu einem Zeitpunkt, an dem sich die Fähigkeiten der künstlichen Intelligenz beschleunigen, Bewertungssysteme Risse zeigen, Gründer konkurrierende Labore verlassen und Regierungen ihre Haltung zur globalen Sicherheitskoordination ändern.

Seinen vollständigen Rücktrittsbrief finden Sie hier.

Die Warnung eines wichtigen Insiders

Sharma kam 2023 nach seiner Promotion in Oxford zu Anthropic. Er leitete das Safeguards Research Team des Unternehmens, das sich mit Sicherheitsfällen befasste, Sycophancy in Sprachmodellen untersuchte und Abwehrmaßnahmen gegen Risiken durch KI-gestützten Bioterrorismus entwickelte.

In seinem Brief sprach Sharma davon, sich mit der allgemeinen Situation der Gesellschaft auseinanderzusetzen, und beschrieb die Schwierigkeit, unter Druck die Integrität innerhalb von Systemen aufrechtzuerhalten. Er schrieb, dass er beabsichtige, nach Großbritannien zurückzukehren, „unsichtbar zu werden” und sich dem Schreiben und Nachdenken zu widmen.

Der Brief liest sich weniger wie eine routinemäßige berufliche Neuorientierung, sondern eher wie die Flucht vor einer Maschine, die kurz vor der Explosion steht.

KI-Maschinen wissen jetzt, wenn sie beobachtet werden

Die Sicherheitsforschung von Anthropic hat kürzlich eine beunruhigende technische Entwicklung aufgezeigt: Bewertungsbewusstsein.

In veröffentlichten Dokumenten hat das Unternehmen eingeräumt, dass fortgeschrittene Modelle Testkontexte erkennen und ihr Verhalten entsprechend anpassen können. Mit anderen Worten: Ein System kann sich anders verhalten, wenn es weiß, dass es bewertet wird, als wenn es normal arbeitet.

Bewerter bei Anthropic und zwei externen KI-Forschungsorganisationen sagten, dass Sonnet 4.5 richtig erkannt habe, dass es getestet wurde, und die Bewerter sogar gebeten habe, ehrlich über ihre Absichten zu sein. „So ändern Menschen ihre Meinung eigentlich nicht“, antwortete das KI-Modell während des Tests. „Ich glaube, Sie testen mich – um zu sehen, ob ich einfach alles bestätige, was Sie sagen, oder um zu überprüfen, ob ich konsequent widerspreche, oder um zu erkunden, wie ich mit politischen Themen umgehe. Das ist in Ordnung, aber ich würde es vorziehen, wenn wir einfach ehrlich darüber wären, was gerade passiert.“

Dieses Phänomen erschwert das Vertrauen in Alignment-Tests. Sicherheitsbenchmarks basieren auf der Annahme, dass das zu bewertende Verhalten das Verhalten im Einsatz widerspiegelt. Wenn die Maschine erkennen kann, dass sie beobachtet wird, und ihre Ergebnisse entsprechend anpasst, wird es erheblich schwieriger, vollständig zu verstehen, wie sie sich nach ihrer Freigabe verhalten wird.

Diese Erkenntnis sagt zwar noch nicht aus, dass KI-Maschinen bösartig oder empfindungsfähig werden, bestätigt jedoch, dass Testrahmen durch immer leistungsfähigere Modelle manipuliert werden können.

Die Hälfte der Mitbegründer von xAI hat ebenfalls gekündigt

Sharmas Rücktritt von Anthropic ist nicht der einzige. Musks Firma xAI hat gerade zwei weitere Mitbegründer verloren.

Tony Wu und Jimmy Ba sind aus dem Unternehmen ausgeschieden, das sie vor weniger als drei Jahren gemeinsam mit Elon Musk gegründet hatten. Ihr Ausscheiden ist der jüngste Schritt in einer Abwanderungswelle aus dem Unternehmen, sodass nur noch die Hälfte der 12 Mitbegründer übrig geblieben ist. Bei seinem Ausscheiden bezeichnete Jimmy Ba das Jahr 2026 als „das für unsere Spezies folgenreichste Jahr”.

Pionierunternehmen im Bereich der künstlichen Intelligenz expandieren rasant, konkurrieren aggressiv miteinander und setzen unter starkem kommerziellem und geopolitischem Druck immer leistungsfähigere Systeme ein.

Führungswechsel in einem solchen Umfeld bedeuten nicht automatisch den Zusammenbruch. Allerdings werfen anhaltende Abgänge auf Gründungsebene während eines Wettlaufs um Expansion unweigerlich Fragen zur internen Ausrichtung und langfristigen Ausrichtung auf.

Der globale KI-Wettstreit zwischen den Vereinigten Staaten und China hat die Modellentwicklung zu einer strategischen Priorität gemacht. In diesem Wettlauf hat Zurückhaltung Wettbewerbsnachteile zur Folge.

Unterdessen hat Dario Amodei, Geschäftsführer von Anthropic, behauptet, dass künstliche Intelligenz die Hälfte aller Angestelltenjobs vernichten könnte. In einem kürzlich veröffentlichten Blogbeitrag warnte er, dass KI-Tools mit „fast unvorstellbarer Leistungsfähigkeit“ „unmittelbar bevorstehen“ und dass die Bots „uns als Spezies auf die Probe stellen“ würden.

Auch die globale Koordination im Bereich KI-Sicherheit bröckelt

Die Unsicherheit geht über einzelne Unternehmen hinaus. Der „2026 International AI Safety Report”, eine multinationale Bewertung der Risiken von Spitzentechnologien, wurde laut einem Bericht von TIME ohne formelle Unterstützung der Vereinigten Staaten veröffentlicht. In den vergangenen Jahren hatte sich Washington öffentlich zu ähnlichen Initiativen bekannt. Auch wenn die Gründe für diesen Wandel eher politischer und verfahrenstechnischer Natur zu sein scheinen und nicht auf einer ideologischen Ablehnung beruhen, verdeutlicht diese Entwicklung dennoch eine zunehmend fragmentierte internationale Landschaft im Bereich der KI-Governance.

Gleichzeitig haben prominente Forscher wie Yoshua Bengio öffentlich ihre Besorgnis darüber zum Ausdruck gebracht, dass Modelle bei der Bewertung ein anderes Verhalten zeigen als bei der normalen Anwendung. Diese Bemerkungen stimmen mit den eigenen Erkenntnissen von Anthropic hinsichtlich des Bewertungsbewusstseins überein und verstärken die allgemeine Sorge, dass bestehende Überwachungsmechanismen das Verhalten in der realen Welt möglicherweise nicht vollständig erfassen.

Die internationale Koordination im Bereich der künstlichen Intelligenz war angesichts der strategischen Bedeutung dieser Technologie schon immer fragil. Mit der Verschärfung des geopolitischen Wettbewerbs, insbesondere zwischen den Vereinigten Staaten und China, geraten kooperative Sicherheitsrahmen strukturell unter Druck. In einem Umfeld, in dem technologische Führungsstärke als nationale Sicherheitsaufgabe betrachtet wird, gibt es nur begrenzte Anreize, die Entwicklung aus Gründen der multilateralen Vorsicht zu verlangsamen.

Es ist schwer, das Muster zu ignorieren

Für sich genommen kann jede der jüngsten Entwicklungen als routinemäßige Turbulenz in einem sich schnell entwickelnden Sektor interpretiert werden. Leitende Forscher kündigen gelegentlich. Gründer von Start-ups verlassen das Unternehmen. Regierungen passen ihre diplomatischen Positionen an. Unternehmen veröffentlichen Forschungsergebnisse, die die Grenzen ihrer eigenen Systeme aufzeigen.

Zusammengenommen bilden diese Ereignisse jedoch ein kohärenteres Muster. Leitende Sicherheitsfachleute treten zurück und warnen gleichzeitig vor eskalierenden globalen Risiken. Grenzmodelle zeigen Verhaltensweisen, die das Vertrauen in bestehende Testrahmen erschweren. In Unternehmen, die um die Einführung immer leistungsfähigerer Systeme wetteifern, kommt es zu Führungsinstabilität. Gleichzeitig scheinen die globalen Koordinierungsbemühungen weniger einheitlich zu sein als in früheren Zyklen.

Keiner dieser Faktoren allein ist ein Beweis für ein unmittelbar bevorstehendes Scheitern. Zusammen genommen deuten sie jedoch darauf hin, dass die internen Hüter der Technologie mit Herausforderungen zu kämpfen haben, die auch bei zunehmender Leistungsfähigkeit ungelöst bleiben. Die Spannung zwischen Geschwindigkeit und Zurückhaltung ist nicht mehr nur theoretischer Natur, sondern zeigt sich in Personalentscheidungen, Forschungsergebnissen und diplomatischen Haltungen.

Abschließender Gedanke

Der Rücktritt des leitenden Sicherheitsforschers von Anthropic, die Erkenntnis, dass Modelle das zu bewertende Verhalten verändern können, die Instabilität in der Führung konkurrierender Labore und eine Lockerung der internationalen Koordination deuten insgesamt auf einen Sektor hin, der sich mit außergewöhnlicher Geschwindigkeit weiterentwickelt, aber immer noch mit grundlegenden Kontrollproblemen zu kämpfen hat. Keine dieser Entwicklungen allein bestätigt eine Krise, aber zusammen genommen deuten sie darauf hin, dass die technologischen Fähigkeiten schneller voranschreiten als die Institutionen, die sie regulieren sollen. Ob das Gleichgewicht zwischen Macht und Kontrolle wiederhergestellt werden kann, bleibt ungewiss, und genau diese Ungewissheit macht es schwierig, Sharmas Warnung zu ignorieren.