Anthropic erklärt „KI-Schrumpfung“: Wie technische Optimierungen Claudes Leistung beeinträchtigten

6

Seit mehreren Wochen schlägt die KI-Entwicklergemeinschaft Alarm wegen eines wahrgenommenen Rückgangs der Intelligenz der Flaggschiffmodelle von Anthropic. Benutzer auf Plattformen wie GitHub,

Während Anthropic zunächst Behauptungen zurückwies, dass sie das Modell zur Steuerung der Servernachfrage absichtlich „abgeschwächt“ hätten, hat das Unternehmen nun eine technische Obduktion veröffentlicht. Die Untersuchung zeigt, dass die Kern-KI-Modelle zwar unverändert blieben, drei spezifische Anpassungen am „Geschirr“ – den Softwareschichten, die das Modell umgeben – jedoch unbeabsichtigt die Leistung beeinträchtigten.

Der Beweis des Niedergangs

Die Gegenreaktion war nicht nur anekdotisch; es wurde durch wichtige technische Daten untermauert. Anfang April 2026 gewann das Narrativ einer „Verdummung“ von Claude durch mehrere wichtige Erkenntnisse an Bedeutung:

  • Groß angelegte Audits: Stella Laurenzo, Senior Director der AI-Gruppe von AMD, führte ein Audit von über 6.800 Claude-Code-Sitzungen und 234.000 Tool-Aufrufen durch. Ihre Daten deuteten auf einen starken Rückgang der Argumentationstiefe hin und stellten fest, dass das Modell häufig in sich wiederholende Schleifen verfiel oder sich für die einfachste mögliche Lösung anstelle der genauesten entschied.
  • Benchmark-Rückgänge: Drittanbietertests von BridgeMind zeigten einen erheblichen Rückgang bei Claude Opus 4.6, wobei die Genauigkeitswerte Berichten zufolge von 83,3 % auf 68,3 % sanken, was dazu führte, dass das Branchenranking vom zweiten auf den zehnten Platz fiel.
  • Ressourcenineffizienz: Benutzer berichteten, dass die Nutzungsbeschränkungen viel schneller als üblich ausgeschöpft wurden, was den Verdacht nährte, dass das Modell „wortreicher“ oder weniger effizient in der Informationsverarbeitung wurde.

Warum es passierte: Drei technische Schuldige

Anthropic stellte klar, dass sich das „Gehirn“ der KI (die Modellgewichte) nicht verändert habe. Stattdessen waren die Probleme auf Änderungen zurückzuführen, die an der Benutzeroberfläche und den Anweisungen vorgenommen wurden, die das Verhalten des Modells steuern:

1. Reduzierter Argumentationsaufwand

Um UI-Latenzprobleme zu lösen – bei denen die Schnittstelle „eingefroren“ schien, während das Modell „dachte“ – senkte Anthropic den standardmäßigen Argumentationsaufwand für Claude Code von hoch auf mittel. Dadurch fühlte sich die Benutzeroberfläche zwar schneller an, dem Modell wurde jedoch die Rechentiefe entzogen, die für komplexe technische Aufgaben erforderlich ist.

2. Der Caching-Logikfehler

Ein Update vom 26. März, das den Speicher durch Entfernen alter „Denk“-Daten aus Leerlaufsitzungen optimieren sollte, enthielt einen kritischen Fehler. Anstatt alte Daten einmal nach einer Stunde Inaktivität zu löschen, löschte der Fehler das „Kurzzeitgedächtnis“ des Modells bei jeder nachfolgenden Interaktion. Dies führte dazu, dass Claude vergesslich und eintönig wurde.

3. Ausführlichkeitsbeschränkungen

Um die Antworten prägnanter zu gestalten, führte Anthropic neue Anweisungen ein, um die Textlänge zwischen Tool-Aufrufen und endgültigen Antworten zu begrenzen. Dieses Gebot der „Kürze“ ging nach hinten los, denn die Auswertungen zeigten einen 3 %igen Rückgang der Codierungsqualität, da das Modell Schwierigkeiten hatte, komplexe Logik innerhalb strenger Wortzahlen auszudrücken.

Wiederherstellung von Vertrauen und Zukunftssicherheit

Die Auswirkungen dieser Fehler waren auf der gesamten Claude Code-CLI, dem Claude Agent SDK und Claude Cowork zu spüren, die Kern-Claude-API blieb jedoch davon unberührt. Um Abhilfe zu schaffen und eine Wiederholung zu verhindern, führt Anthropic eine Reihe struktureller Änderungen durch:

  • Erweitertes „Dogfooding“: Mehr internes Personal wird benötigt, um genau dieselben öffentlichen Builds wie Kunden zu verwenden, um Regressionen abzufangen, bevor sie auf den Markt kommen.
  • Strenge Tests: Das Unternehmen setzt erweiterte Evaluierungssuiten ein, um zu testen, wie sich jede kleine Änderung an einer „Systemaufforderung“ auf die Gesamtintelligenz des Modells auswirkt.
  • Abonnentenvergütung: Angesichts der Frustration und der verschwendeten Token hat Anthropic ab dem 23. April die Nutzungsbeschränkungen für alle Abonnenten zurückgesetzt.

„Wir verschlechtern unsere Modelle niemals absichtlich“, erklärte Anthropic und betonte, dass das Ziel darin besteht, sicherzustellen, dass die Benutzererfahrung den hohen Standards der zugrunde liegenden Technologie entspricht.


Schlussfolgerung: Anthropic hat festgestellt, dass die jüngsten Leistungseinbußen durch Optimierungsversuche auf der Softwareebene und nicht durch die KI selbst verursacht wurden. Durch die Rücknahme dieser Änderungen und die Verschärfung der internen Tests möchte das Unternehmen Claudes Ruf als herausragender Denker wiederherstellen.