Was KI niemals verstehen wird
Wir fangen Bälle, ohne Physiker zu sein. Wir verstehen das Schweigen eines Freundes. Bei fallenden Kirschblüten haben wir eine tiefe Einsicht. All das kann KI nicht, und der Grund liegt tiefer als in ihrer Technologie.
Kürzlich habe ich Claude eine Aufgabe gegeben: "Entwickle mir eine Strategie für den neuen Service, mit der wir uns erfolgreich im Markt X positionieren können." Er machte sich ans Werk, zerlegte die Aufgabe in Schritte, recherchierte, analysierte, verdichtete, leitete Erkenntnisse ab, entwickelte Szenarien und definierte konkrete Schritte. In wenigen Minuten lieferte Claude ein beeindruckendes Ergebnis. Ich war beeindruckt: die KI hatte mich verstanden.
Doch schon bei der nächsten Aufgabe scheiterte er grandios, und das Ergebnis war absurd und vollkommen unbrauchbar.
Kann KI verstehen? Und was verstehen wir überhaupt unter Verstehen?
Roboter können KI-gestützt herausragende Choreographien abspielen und komplexe Bewegungsmuster durchführen, aber sie scheitern daran, Ereignisse vorherzusehen, wenn ein Glas zu nah am Tischrand steht, und ihr eigenes Verhalten spontan anzupassen. KI kann aufwendige Bilder erzeugen, die in ihrer Komposition jedes Fotografenhandwerk beschämen, aber sie versteht nicht, welche Welt sie darstellt, wie sie riecht, klingt oder schmeckt.
Verstehen braucht mehr als nur Verstand.
Verstehen bedeutet, in der Welt zu SEIN. Mit fünf Sinnen ausgestattet bewegen wir uns in ihr, und sie erscheint in unserem Bewusstsein, ist durch unser Bewusstsein überhaupt erst für uns zugänglich. Verstehen bedeutet auch, in der Zeit zu sein: wir wissen, wann Jetzt ist und wann es gestern war, und wenn wir an ein wichtiges Gespräch denken, das morgen stattfindet, erscheint in unserem Bewusstsein das Ich in der zukünftigen Welt. Damit ausgestattet, haben wir ein Weltbild in uns verkörpert, das uns den Ball ohne Nachdenken fangen lässt, obwohl dieser Vorgang physikalischen Gesetzen folgt, die wir nie explizit gelernt haben.
Yann LeCun, einer der einflussreichsten KI-Forscher der Gegenwart und Chief AI Scientist bei Meta, nennt das eine grundlegende Grenze heutiger Sprachmodelle: sie modellieren Sprache über die Welt, nicht die Welt selbst. Ein Kleinkind, das einige Monate mit der Welt interagiert, lernt mehr über Physik als jedes Sprachmodell aus Milliarden von Sätzen.
LeCun spricht von der dunklen Materie der Intelligenz: jenem enormen Wissensanteil, der nicht in Sprache existiert, sondern in Erfahrung, Körper und Aktion. Echte Intelligenz braucht ein Weltmodell, eine innere Repräsentation, die Konsequenzen vorwegnimmt, bevor sie eintreten, nicht eine Datenbank über die Welt, sondern eine Intuition ihrer Wirklichkeit.
Was der Leib weiß, bevor der Kopf beginnt
Der Philosoph Michael Polanyi hat für dieses Phänomen eine Formulierung gefunden, die einfacher klingt, als sie ist:
Wir wissen mehr, als wir sagen können.
Was der Ball-Fänger weiß, lässt sich nicht in Sprache übersetzen, weil es kein Sprachwissen ist, sondern Körperwissen, das durch Erfahrung entstanden ist und im Leib gespeichert bleibt. Das Handwerk des erfahrenen Tischlers, das Gespür des Moderators dafür, wann eine Pause länger werden darf, das instinktive Einschätzen einer Situation, bevor man sie analysiert hat: all das gehört zu einer Form des Wissens, die nicht in Datensätzen vorkommt.
Fei-Fei Li, Informatikerin an der Stanford University und Mitgründerin des Stanford Institute for Human-Centered AI, sucht von der Forschungsseite nach genau dem, was Polanyi beschreibt. Ihr 2024 gegründetes Unternehmen World Labs arbeitet an spatial intelligence: KI-Systemen, die dreidimensionale Welten räumlich verstehen, sich in ihnen orientieren und physische Konsequenzen antizipieren können.
Dass dieses Forschungsprogramm zwar existiert, aber noch weit von seinem Ziel entfernt ist, macht deutlich: was dem Leib selbstverständlich ist, bleibt der KI bisher unerreichbar, nicht weil es an Rechenleistung mangelt, sondern an der Grundstruktur, in der verkörpertes Wissen entsteht. Die diesen Vergleich zwischen Mensch und Ki habe ich an anderer Stelle entwickelt und als Kategorienfehler beschrieben.
Das Gewicht des Schweigens: Was KI nicht hört
Diese Grenze tritt noch deutlicher hervor, sobald man das Terrain des Zwischenmenschlichen betritt. Wir lesen nicht nur zwischen den Zeilen, sondern hören auch, was gesagt wird, ohne gesagt zu werden: das Zögern vor einer Antwort, die zu einstudierte Freundlichkeit, das Schweigen, das mehr sagt als jeder Satz. Diese Fähigkeit ist keine Interpretationsleistung, die sich aus Textdaten lernen ließe, sondern eine Form von Resonanz, die voraussetzt, selbst schon einmal in derselben Lage gewesen zu sein.
Was dabei auf dem Spiel steht, habe ich im dialogischen Prinzip beschrieben: echte Begegnung setzt Anwesenheit voraus, nicht nur eine Antwort. Ein Freund schweigt, wo er sonst antworten würde - wir verstehen dieses Schweigen nicht, weil wir die statistische Häufigkeit von Stille in vergleichbaren Situationen kennen, sondern weil wir wissen, wie schwer etwas Unaussprechliches auszusprechen ist, und weil man selbst erlebt hat, was Sprechen kosten kann - oder eben nicht zu sprechen.
Dieses Wissen ist leiblich und endlich zugleich: es setzt einen Körper voraus, in dem es erlebt und gefühlt wird, und eine Biografie, in der manche Worte schon Konsequenzen hatten. KI kann erkennen, dass Schweigen in bestimmten Kontexten Bedeutung hat; sie kann nicht das Gewicht des Schweigens verstehen, weil sie selbst nie etwas zu schwer zum Aussprechen gefunden hat.
Dasselbe gilt für die Berufswahl eines Kindes. Das Gewicht dieser Entscheidung liegt nicht in ihrer Komplexität, sondern in ihrer Irreversibilität und Konsequenzen in der Zeit: wer eine Richtung wählt, schließt andere dauerhaft aus, und das Verstehen setzt voraus, selbst Entscheidungen getroffen und ihre Konsequenzen über Jahrzehnte erlebt zu haben. Ein System, das keine Geschichte hat und keine Zukunft fürchtet, kann dieses Gewicht nicht verstehen, auch wenn es alle möglichen Lebenswege korrekt beschreiben kann.
Was ein Haiku zeigt und was verstanden werden kann
Und dann gibt es Momente, in denen das Verstehen weiter geht als das Zwischenmenschliche: Momente, in denen die Welt selbst etwas sagt, ohne es zu sagen. Der erste Schneefall im Winter, der unmittelbar etwas Unaussprechliches auslöst. Die japanische Dichtform des Haiku ist dafür ein kunstvolles Beispiel. Matsuo Bashōs bekanntestes Gedicht beschreibt einen alten Teich, einen Frosch, der hineinspringt, und das Geräusch des Wassers: das ist keine Sachinformation oder eine Erklärung, nicht einmal eine Naturbeschreibung. Die wenigen Worte zeigen auf etwas - und wenn in mir etwas bereit ist, dann verstehe ich plötzlich.
In der chinesischen und japanischen Zen-Tradition gibt es hunderte von Kōans, jedes ist eine kurze Anekdote, das auf einem Paradoxon gründet und logisch-analytisch nicht verstanden werden kann ("Wie klingt das Klatschen einer Hand?"). Der Verstand scheitert daran und zwingt den Zen-Schüler, das Verstehen durch Denken zu durchbrechen und so zu einer intuitiven Einsicht zu kommen.
Haiku oder Kōans deuten auf etwas, aber worauf, das lässt sich nicht paraphrasieren. Es ist kein Wissen, das sich in Worte oder Sätze übertragen ließe.
Es ist die Erfahrung des plötzlichen Verstehens jenseits des Verstandes, etwas, das entsteht: zur richtigen Zeit, in einem Körper und mit einem bereiten Bewusstsein.
Wer den Kirschblüten zusieht, die der Wind verweht, der kann eine plötzliche Einsicht in Leerheit erfahren (shunyata); dort, wo eben noch eine Blüte war, ist jetzt keine mehr, sie existiert in der Erinnerung, der leere Platz "in der Welt" hat aber doch das Potenzial für eine Blüte. Die eigene Vergänglichkeit erkennt sich darin wieder, nicht als rationale Erkenntnis, sondern als Einsicht, die einen ins Mark trifft. Natürlich wussten wir vorher auch um unsere Sterblichkeit, doch der Moment der fallenden Kirschblüte berührt plötzlich unsere endliche, leibliche Existenz.
KI kann shunyata erklären, mit der Präzision eines guten Lexikons. Sie kann über Kirschblüten schreiben, schön und korrekt. Aber sie kann nicht in den fallenden Blüten ebendiese Leerheit und die eigene Endlichkeit erkennen, weil sie nichts hat, das auf dem Spiel steht, weil die Worte des Haiku bei ihr ins Leere gehen und weil kein Körper da ist, der berührt werden kann, keine Endlichkeit, die dem Moment Gewicht gibt, kein Selbst, das sich im Vergehen erkennt.
Die Frage hinter dem Wort
Wenn man das alles gedanklich zusammenbringt, zeigt sich, dass der Satz "die KI versteht das" nicht einfach eine Vereinfachung ist, sondern ein Kategorienfehler, der sich mit jeder Wiederholung vertieft.
Wenn wir uns der KI gleichsetzen, weil wir das Wort "verstehen" ihr zuschreiben wie einem Mensch, tun wir das nicht böswillig; doch wenn Sprache das Denken formt, und wenn "Verstehen" seine Bedeutung verliert, dann nehmen wir unserem menschlichen, bewussten, leiblichen, intuitiven und endlichen SEIN Raum.
Quellen
- LeCun, Yann (2022): „A Path Towards Autonomous Machine Intelligence." Meta AI / OpenReview. https://openreview.net/pdf?id=BZ5a1r-kVsf
- Li, Fei-Fei (2024): World Labs — Spatial Intelligence. https://worldlabs.ai
- Matsuo Bashō (1686): Furuike ya (古池や)
- Polanyi, Michael (1966): The Tacit Dimension. Doubleday, New York.
Häufige Fragen zu KI und Verstehen
Kann KI wirklich verstehen, was Menschen meinen?
KI erkennt Muster in Sprache mit beeindruckender Präzision, auch Ironie, Subtext und emotionale Valenz. Aber Erkennen ist nicht dasselbe wie Verstehen. Verstehen im vollen Sinne setzt voraus, selbst in einer Situation gewesen zu sein, einen Körper zu haben, der Anspannung trägt, und eine Geschichte, in der Worte Konsequenzen hatten. Dieses Fundament hat KI nicht, weshalb sie den Typ einer Situation erkennt, nicht aber das Gewicht des konkreten Moments.
Was fehlt KI, um wie ein Mensch zu verstehen?
Drei Dinge, die sich nicht programmieren lassen: einen Leib, der die Welt vor dem Denken erfährt; eine Endlichkeit, die dem Moment Bedeutung gibt; und eine gelebte Geschichte, aus der heraus Stille, Entscheidungen und Erfahrungen ihr Gewicht bekommen. Yann LeCun nennt das die "dunkle Materie der Intelligenz", alles, was nicht in Sprache vorkommt, weil es nie in Sprache gepasst hat.
Erkennt KI auch Ironie oder das Unausgesprochene zwischen den Zeilen?
Teilweise. KI erkennt statistisch, welche Formulierungen in welchen Kontexten typischerweise Ironie oder Deflexion signalisieren. Was sie nicht erkennt, ist das Partikulare: dieses spezifische Schweigen, zwischen diesen zwei Menschen, in diesem Moment ihrer Geschichte. Für das Partikulare braucht man Haut im Spiel, wie es Nassim Taleb nennt, und das hat KI nicht.
Hat KI Bewusstsein oder eigene Erfahrungen?
Nein, zumindest nicht im Sinne gelebter Erfahrung. KI verarbeitet Daten über Erfahrungen, hat aber selbst keine körperlichen Zustände, keine Biografie und keine Sterblichkeit. Das ist keine moralische Bewertung, sondern eine Beschreibung: KI existiert in einem anderen Modus als Menschen, nicht graduell schlechter, sondern kategorial anders.
Wird KI das irgendwann können, wenn sie weiterentwickelt wird?
Fei-Fei Li und ihr Unternehmen World Labs arbeiten daran, KI räumlich-körperliches Weltverstehen beizubringen. Das ist ein wichtiger Schritt. Aber selbst dann blieben Endlichkeit und gelebte Geschichte als nicht replizierbare Grundbedingungen bestehen. Ein System ohne Sterblichkeit wird das Gewicht eines letzten Gesprächs nicht verstehen, auch wenn es dreidimensionale Räume navigiert.