Wider den Modell-Hype

GPT-5.4 ist draußen, und mein Feed explodiert. Benchmarks, Vergleiche, heiße Takes. Jede Woche dasselbe Spiel mit einem neuen Modellnamen. Wer ist schlauer, wer ist schneller, wer gewinnt den nächsten Benchmark.

Ich nutze mehrere Modelle parallel. Im Alltag arbeite ich mit Claude Code, für bestimmte Aufgaben greife ich zu OpenAI. Und was mir dabei auffällt: Das Modell ist selten der Grund, warum etwas gut oder schlecht läuft. Der Grund ist fast immer die Umgebung drumherum.

Hirn und Körper

Um zu erklären was ich meine, muss ich kurz ausholen. Denn die Unterscheidung zwischen Modell und Umgebung ist weniger offensichtlich als sie klingt.

Als die ersten LLMs auftauchten, konnten sie genau eine Sache: Tokens produzieren. Text rein, Text raus. Das war beeindruckend und gleichzeitig seltsam nutzlos. Man konnte sich mit ihnen unterhalten, sich Code generieren lassen, Texte zusammenfassen. Aber das Modell konnte nichts tun. Es konnte keine Datei lesen, keinen Befehl ausführen, keine API aufrufen. Es war ein Hirn in einem Glas. Brillant, aber ohne Hände.

Dann kamen Tool Use und Function Calling. Plötzlich konnte das Modell sagen: “Ich brauche den Inhalt dieser Datei” oder “Führe diesen Befehl aus” - und eine Infrastruktur drumherum hat das dann tatsächlich getan. Das Hirn bekam Hände. Und damit änderte sich alles. Nicht weil das Modell schlauer wurde, sondern weil es jetzt mit der Welt interagieren konnte.

Mit MCP kam dann so etwas wie ein standardisiertes Nervensystem dazu. Eine einheitliche Schnittstelle, über die ein Modell auf beliebige Datenquellen und Werkzeuge zugreifen kann, ohne dass jede Integration einzeln gebaut werden muss.

Und schließlich die Agent Harnesses - Claude Code, Codex und vergleichbare Tools. Das ist der vollständige Körper. Sie orchestrieren: Wann denkt das Modell? Wann handelt es? Wann korrigiert es sich selbst? Wann fragt es nach? Erst durch den Harness kann ein Modell wirklich autonom über längere Zeit arbeiten, ohne ständig an der Hand geführt zu werden. Vorher war es ein Chatbot. Jetzt ist es ein Agent.

Die Pointe ist: Die meisten Verbesserungen der letzten zwei Jahre kamen nicht vom Hirn. Sie kamen vom Körper.

Was die Benchmarks sagen

Das ist auch messbar. Aktuelle Benchmarks zeigen: Der Unterschied zwischen den besten Frontier-Modellen auf demselben Coding-Benchmark liegt bei unter einem Prozentpunkt. Der Unterschied zwischen guter und schlechter Infrastruktur um dasselbe Modell herum: über zwanzig Prozentpunkte. Das Hirn macht den Unterschied im einstelligen Bereich. Der Körper im zweistelligen.

Das heißt nicht, dass das Modell egal ist. Aber es heißt, dass die Frage “welches Modell ist das beste?” massiv an Bedeutung verloren hat. Die Modelle an der Spitze sind nah genug beieinander, dass der Körper den Ausschlag gibt.

Zwei Körper, zwei Philosophien

Was mich daran beschäftigt: Anthropic und OpenAI bauen völlig verschiedene Körper. Nicht verschiedene Features oder Preismodelle. Verschiedene Grundhaltungen, wie ein Agent arbeiten soll. Und wer meint, man könne eines gegen das andere austauschen, der irrt.

Anthropic mit Claude Code gibt dem Agenten vollen Zugriff auf mein lokales System. Terminal, Dateisystem, Git. Ich schaue zu und greife ein wenn nötig. Wie ein Kollege, der neben mir am Rechner sitzt.

OpenAI mit Codex geht den entgegengesetzten Weg. Der Agent arbeitet in einer isolierten Cloud-Umgebung. Kein Zugriff auf mein System, alles in einer Sandbox. Ich delegiere eine Aufgabe und bekomme das Ergebnis zurück. Wie ein externer Dienstleister in seinem eigenen Büro.

Ich nutze beides, weil verschiedene Aufgaben verschiedene Körper brauchen. Interaktives Arbeiten an einer Architektur - da will ich den Kollegen neben mir. Ein klar spezifiziertes Feature umsetzen lassen - da funktioniert die Delegation besser.

Dass so viele Entwickler gerade Claude bevorzugen, hat einen Grund, der wenig mit Benchmarks zu tun hat. Es ist die Symbiose. Anthropic baut Modell und Harness als Einheit. Das Modell ist darauf trainiert, mit Claude Code zusammenzuspielen, und Claude Code ist darauf gebaut, die Stärken des Modells auszureizen. Diese Abstimmung zwischen Hirn und Körper bekommt aktuell niemand besser hin. Die Benchmarks mögen ähnlich aussehen. Aber wie sich die Arbeit anfühlt, ist ein gewaltiger Unterschied.

Was sich dabei verändert, ist subtil aber spürbar: Mit dem lokalen Ansatz denke ich in Dialog. Ich sehe was der Agent tut, korrigiere in Echtzeit, wir bauen Verständnis zusammen auf. Mit dem Sandbox-Ansatz denke ich in Spezifikationen. Alles muss vorher beschrieben sein, dann lasse ich los. Das trainiert komplett andere Muskeln.

Der Lock-in, den keiner sieht

Und hier wird es unangenehm. Der Lock-in bei KI-Tools entsteht nicht durch das Abo. 20 Dollar im Monat kündigt man in zwei Minuten. Der Lock-in entsteht durch die Arbeitsweise, die sich um den Körper herum bildet.

Wer seit Monaten mit einem lokal arbeitenden Agenten arbeitet, hat Workflows aufgebaut. Konfigurationsdateien, MCP-Integrationen, Skripte die sich auf bestimmte Verhaltensweisen verlassen. Das ganze Projekt ist darauf ausgelegt, dass der Agent Dateien direkt liest und schreibt.

Wer jetzt zu einem Sandbox-Agenten wechselt, muss nicht nur ein neues Tool lernen. Die Specs müssen präziser werden, weil der Agent nicht mehr selbst im Projekt nachschauen kann. Die Projektstruktur muss sich ändern. Und irgendwann merkt man: Das eigene Denken hat sich verändert. Nicht das Tool war der Lock-in. Das Muskelgedächtnis war es.

In meinen eigenen Projekten sehe ich das deutlich. Ich habe CLAUDE.md-Dateien, die meinen Agenten Kontext über das Projekt geben. MCP-Server, die spezifische Datenquellen anbinden. Workflows, die darauf bauen, dass der Agent mein Dateisystem kennt. Das ist keine leichte Kiste, die man mal eben auf einen anderen Anbieter umzieht. Das ist gewachsene Infrastruktur.

Eine ehrliche Einschränkung

Ich will hier nicht so tun, als wäre das in Stein gemeißelt. Die Modelle an der Spitze sind gerade sehr nah beieinander. Das kann sich ändern. Wenn die nächste Generation von Reasoning-Modellen einen echten Sprung macht, könnte das Hirn plötzlich wieder wichtiger werden als der Körper.

Es gibt ein nachvollziehbares Gegenargument: Scaffolds, die man für die Limitierungen heutiger Modelle baut, werden vielleicht obsolet, sobald die Modelle schlau genug sind, das Problem direkt zu lösen. Ohne Umweg über aufwendige Infrastruktur.

Vielleicht stimmt das. Aber Stand heute ist es nicht die Realität. Stand heute entscheidet der Körper.

Was bleibt

Was mich an der ganzen Modell-Debatte stört: Sie lenkt ab. Jede Woche fragt jemand “welches Modell ist das beste?” und übersieht dabei die Entscheidung, die tatsächlich langfristige Konsequenzen hat. Nicht welches Hirn man wählt, sondern in welchen Körper man investiert.

Die Modelle an der Spitze tauschen sich alle paar Wochen aus. Nächsten Monat ist ein anderes vorne. Aber die Arbeitsweise, die ich mir in den letzten Monaten aufgebaut habe - die Konfigurationen, die Integrationen, die Denkgewohnheiten - die bleiben.

Der Lock-in ist nicht das Abo. Der Lock-in sind die Gewohnheiten.