Anthropic wyjaśnia zjawisko „shrinkflation AI”: jak zmiany techniczne zmniejszyły wydajność Claude’a

22

Od tygodni społeczność AI bije na alarm w związku z zauważalnym spadkiem inteligencji flagowych modeli Anthropic. Użytkownicy platform takich jak GitHub, X i Reddit zgłosili zjawisko, które nazwali „kurczeniem się sztucznej inteligencji” — trend, w wyniku którego Claude stał się mniej zdolny do złożonego rozumowania, popełniał więcej błędów i zaczął mniej efektywnie wydawać tokeny.

Chociaż Anthropic początkowo zaprzeczył twierdzeniom, że celowo osłabiał model w celu zarządzania obciążeniem serwera, firma opublikowała raport techniczny po dochodzeniu. Okazuje się, że chociaż wagi rdzenia sieci neuronowej pozostały niezmienione, trzy specyficzne korekty uprzęży – warstw oprogramowania otaczających model – w sposób niezamierzony podważyły ​​​​jej skuteczność.

Dowody degradacji

Niezadowolenie użytkowników nie było jedynie subiektywną opinią; było to poparte poważnymi danymi technicznymi. Na początku kwietnia 2026 r. dyskusja na temat „głupota” Claude’a spotkała się z szerokim zainteresowaniem opinii publicznej ze względu na kilka kluczowych ustaleń:

  • Rozbudowane audyty: Stella Lorenzo, starszy dyrektor grupy AI w AMD, przeprowadziła audyt ponad 6800 sesji Claude Code i 234 000 wywołań narzędzi. Jej dane wykazały gwałtowny spadek głębi rozumowania: model często grzęzł w powtórzeniach lub wybierał najprostsze rozwiązanie zamiast najdokładniejszego.
  • Spadek wyniku w benchmarkach: Testy przeprowadzone przez firmę BridgeMind wykazały znaczny wzrost wydajności Claude Opus 4.6, a wyniki dokładności spadły z 83,3% do 68,3%, co spowodowało spadek modelu z drugiego na dziesiąte miejsce w rankingach branżowych.
  • Nieefektywność zasobów: Użytkownicy zgłaszali, że limity wykorzystania wyczerpują się znacznie szybciej niż zwykle. Wzbudziło to podejrzenia, że ​​model stał się bardziej „rozwlekły” lub mniej skuteczny w przetwarzaniu informacji.

Powody tego, co się stało: trzech sprawców technicznych

Anthropic wyjaśniło, że „mózgi” sztucznej inteligencji (wagi modelu) nie uległy zmianie. Zamiast tego problemy wynikały ze zmian w interfejsie użytkownika i instrukcjach, które kierują zachowaniem modelu:

1. Zmniejszenie intensywności rozumowania

Aby rozwiązać problem opóźnienia interfejsu użytkownika (gdzie ekran wydawał się zawieszać, gdy model „myślił”), Anthropic obniżył domyślny poziom intensywności rozumowania z wysokiego do średniego dla Claude Code. Dzięki temu interfejs był bardziej responsywny, ale pozbawił model głębokości obliczeniowej potrzebnej do rozwiązywania złożonych problemów inżynierskich.

2. Błąd w logice buforowania

Aktualizacja z 26 marca, mająca na celu optymalizację pamięci poprzez usuwanie przestarzałych danych myślowych z nieaktywnych sesji, zawierała krytyczny błąd. Zamiast usuwać stare dane raz po godzinie bezczynności, błąd kasował „pamięć krótkotrwałą” modelu przy każdej kolejnej interakcji. To spowodowało, że Claude stał się „zapominający” i podatny na powtórzenia.

3. Ograniczenia szczegółowości

Próbując uczynić odpowiedzi bardziej zwięzłymi, Anthropic wprowadził nowe instrukcje, które ograniczają ilość tekstu pomiędzy wywołaniami narzędzi a ostatecznymi odpowiedziami. To skupienie się na „zwięzłości” przyniosło odwrotny skutek: oceny wykazały 3% spadek jakości kodowania, ponieważ model miał trudności z wyrażeniem złożonej logiki w ramach ściśle określonych limitów liczby słów.

Przywracanie zaufania i przyszłej ochrony

Konsekwencje tych błędów dotknęły Claude Code CLI, Claude Agent SDK i Claude Cowork, chociaż główne API Claude pozostało nietknięte. Aby zaradzić tej sytuacji i zapobiec ponownemu wystąpieniu podobnych incydentów, Anthropic wdraża szereg zmian strukturalnych:

  • Zaawansowane „testy wewnętrzne” (dogfooding): Więcej pracowników firmy będzie teraz musiało korzystać z tych samych publicznych kompilacji co klienci, aby wykryć regresje przed wprowadzeniem wersji na rynek.
  • Rygorystyczne testy: firma wdraża ulepszone zestawy narzędzi do oceny, w jaki sposób każda mała zmiana w „monitie systemowym” wpływa na ogólną inteligencję modelu.
  • Wynagrodzenie subskrybenta: Widząc frustrację użytkowników i zmarnowane tokeny, Anthropic zresetował limity użytkowania dla wszystkich subskrybentów od 23 kwietnia.

„Nigdy celowo nie degradujemy naszych modeli” – stwierdziła Anthropic, podkreślając, że ich celem jest zapewnienie, że doświadczenie użytkownika spełnia wysokie standardy ich podstawowych technologii.


Wniosek: Firma Anthropic ustaliła, że niedawny spadek wydajności był spowodowany próbami optymalizacji warstwy oprogramowania, a nie zmianami w samej sztucznej inteligencji. Wycofując te zmiany i zaostrzając testy wewnętrzne, firma dąży do przywrócenia reputacji Claude’a jako narzędzia o najwyższym poziomie logicznego myślenia.