Ausgerechnet Apple hat mit seinem Forschungspapier „The Illusion of Thinking“ einen Nerv getroffen, den die KI-Industrie bislang lieber ignoriert. Während Tech-Konzerne von „Reasoning Models“, „Thinking Tokens“ und emergenter Intelligenz sprechen, untersucht das Apple-Team nüchtern, was diese Systeme tatsächlich leisten – und wo sie scheitern.
Auf der Plattform X fasste der Nutzer Guri Singh die Studie drastisch zusammen: Die Modelle verstünden nichts. Sie lösten keine Probleme. Sie dächten nicht. Sie generierten nur Wort für Wort plausiblen Text. „Real thought: zero.“
So absolut formuliert es Apple nicht. Aber die Richtung ist nicht völlig aus der Luft gegriffen.
Die Forscher testeten moderne Reasoning-Modelle mit kontrollierbaren Logikrätseln – etwa dem Turm von Hanoi oder dem klassischen Flussproblem mit Wolf, Ziege und Kohl. Das sind keine exotischen Aufgaben. Es sind strukturierte, algorithmisch lösbare Probleme, mit denen man prüft, ob jemand schrittweise logisch denken kann.
Das Muster ist auffällig: Bei niedriger Komplexität funktionieren die Modelle gut. Drei Scheiben beim Turm von Hanoi? Kein Problem. Doch erhöht man die Anzahl der Scheiben, beginnen Wiederholungen, widersprüchliche Schritte, ausgelassene Bewegungen. Ab einer bestimmten Schwelle kollabiert die Leistung vollständig.
Noch brisanter: Selbst wenn die Forscher den exakten Lösungsalgorithmus im Prompt vorgeben – also dem Modell gewissermaßen die „Hausaufgabenlösung“ mitschicken –, verbessert sich das Ergebnis nicht stabil. Das System scheitert nicht nur am Finden der Lösung. Es scheitert an der präzisen Ausführung logischer Schritte.
Das trifft den Kern der Debatte. Reasoning-Modelle simulieren Denkprozesse, indem sie längere Textketten erzeugen – sogenannte Thinking Tokens. Doch Apple misst systematisch, wie viele Tokens tatsächlich verwendet werden. Und hier zeigt sich eine paradoxe Kurve: Mit steigender Komplexität generieren die Modelle zunächst mehr „Gedanken“, doch ab einem kritischen Punkt sinkt der Reasoning-Aufwand – obwohl ausreichend Rechenbudget vorhanden wäre.
Mit anderen Worten: Je schwieriger das Problem wird, desto weniger „denkt“ das System. Genau das Gegenteil menschlicher Problemlösestrategien.
Guri Singh interpretiert das radikal: Die KI weiß nicht, ob sie richtig oder falsch liegt. Sie hat kein Zielverständnis, keine echte Selbstbewertung, kein inneres Korrektiv. Sie vervollständigt Text, als wüsste sie nicht, wozu.
Apple formuliert es vorsichtiger, aber der Befund bleibt: Die Modelle zeigen drei klar unterscheidbare Regime. Bei einfachen Aufgaben sind klassische Modelle oft effizienter. Bei mittlerer Komplexität zeigen Reasoning-Modelle Vorteile. Bei hoher Komplexität kollabieren beide Varianten. Die Leistungssteigerung skaliert nicht unbegrenzt.
Das stellt eine zentrale Annahme der Branche infrage: Wenn wir nur mehr Daten, mehr Parameter und mehr Rechenleistung hinzufügen, entsteht irgendwann echte Superintelligenz. Apples Ergebnisse legen nahe, dass möglicherweise kein stabiles, generalisierbares „Denken“ vorhanden ist, das man einfach hochskalieren könnte.
Das bedeutet nicht, dass KI nutzlos ist. Sie ist leistungsfähig, produktiv, beeindruckend in vielen Domänen. Aber das Paper deutet darauf hin, dass wir es eher mit hochentwickelten Musterverarbeitern zu tun haben als mit robusten symbolischen Problemlösern.
Der eigentliche Konflikt liegt also nicht zwischen „KI ist genial“ und „KI denkt null“. Die Wahrheit ist komplexer. Die Systeme können in bestimmten Zonen erstaunlich kompetent wirken – doch sie stoßen an strukturelle Grenzen, sobald die logische Tiefe und kombinatorische Komplexität steigen.
Apples Studie ist deshalb weniger ein Angriff auf KI als ein Realitätscheck. Sie rückt die Diskussion weg von Marketing-Versprechen hin zu architektonischen Grenzen. Und genau darin liegt ihre Sprengkraft.
Vielleicht stehen wir nicht kurz vor maschinellem Denken. Vielleicht stehen wir an einem Punkt, an dem wir erkennen müssen, dass Simulation und Verständnis zwei sehr unterschiedliche Dinge sind.
