Od tygodni społeczność AI bije na alarm w związku z zauważalnym spadkiem inteligencji flagowych modeli Anthropic. Użytkownicy platform takich jak GitHub, X i Reddit zgłosili zjawisko, które nazwali „kurczeniem się sztucznej inteligencji” — trend, w wyniku którego Claude stał się mniej zdolny do złożonego rozumowania, popełniał więcej błędów i zaczął mniej efektywnie wydawać tokeny.
Chociaż Anthropic początkowo zaprzeczył twierdzeniom, że celowo osłabiał model w celu zarządzania obciążeniem serwera, firma opublikowała raport techniczny po dochodzeniu. Okazuje się, że chociaż wagi rdzenia sieci neuronowej pozostały niezmienione, trzy specyficzne korekty uprzęży – warstw oprogramowania otaczających model – w sposób niezamierzony podważyły jej skuteczność.
Dowody degradacji
Niezadowolenie użytkowników nie było jedynie subiektywną opinią; było to poparte poważnymi danymi technicznymi. Na początku kwietnia 2026 r. dyskusja na temat „głupota” Claude’a spotkała się z szerokim zainteresowaniem opinii publicznej ze względu na kilka kluczowych ustaleń:
- Rozbudowane audyty: Stella Lorenzo, starszy dyrektor grupy AI w AMD, przeprowadziła audyt ponad 6800 sesji Claude Code i 234 000 wywołań narzędzi. Jej dane wykazały gwałtowny spadek głębi rozumowania: model często grzęzł w powtórzeniach lub wybierał najprostsze rozwiązanie zamiast najdokładniejszego.
- Spadek wyniku w benchmarkach: Testy przeprowadzone przez firmę BridgeMind wykazały znaczny wzrost wydajności Claude Opus 4.6, a wyniki dokładności spadły z 83,3% do 68,3%, co spowodowało spadek modelu z drugiego na dziesiąte miejsce w rankingach branżowych.
- Nieefektywność zasobów: Użytkownicy zgłaszali, że limity wykorzystania wyczerpują się znacznie szybciej niż zwykle. Wzbudziło to podejrzenia, że model stał się bardziej „rozwlekły” lub mniej skuteczny w przetwarzaniu informacji.
Powody tego, co się stało: trzech sprawców technicznych
Anthropic wyjaśniło, że „mózgi” sztucznej inteligencji (wagi modelu) nie uległy zmianie. Zamiast tego problemy wynikały ze zmian w interfejsie użytkownika i instrukcjach, które kierują zachowaniem modelu:
1. Zmniejszenie intensywności rozumowania
Aby rozwiązać problem opóźnienia interfejsu użytkownika (gdzie ekran wydawał się zawieszać, gdy model „myślił”), Anthropic obniżył domyślny poziom intensywności rozumowania z wysokiego do średniego dla Claude Code. Dzięki temu interfejs był bardziej responsywny, ale pozbawił model głębokości obliczeniowej potrzebnej do rozwiązywania złożonych problemów inżynierskich.
2. Błąd w logice buforowania
Aktualizacja z 26 marca, mająca na celu optymalizację pamięci poprzez usuwanie przestarzałych danych myślowych z nieaktywnych sesji, zawierała krytyczny błąd. Zamiast usuwać stare dane raz po godzinie bezczynności, błąd kasował „pamięć krótkotrwałą” modelu przy każdej kolejnej interakcji. To spowodowało, że Claude stał się „zapominający” i podatny na powtórzenia.
3. Ograniczenia szczegółowości
Próbując uczynić odpowiedzi bardziej zwięzłymi, Anthropic wprowadził nowe instrukcje, które ograniczają ilość tekstu pomiędzy wywołaniami narzędzi a ostatecznymi odpowiedziami. To skupienie się na „zwięzłości” przyniosło odwrotny skutek: oceny wykazały 3% spadek jakości kodowania, ponieważ model miał trudności z wyrażeniem złożonej logiki w ramach ściśle określonych limitów liczby słów.
Przywracanie zaufania i przyszłej ochrony
Konsekwencje tych błędów dotknęły Claude Code CLI, Claude Agent SDK i Claude Cowork, chociaż główne API Claude pozostało nietknięte. Aby zaradzić tej sytuacji i zapobiec ponownemu wystąpieniu podobnych incydentów, Anthropic wdraża szereg zmian strukturalnych:
- Zaawansowane „testy wewnętrzne” (dogfooding): Więcej pracowników firmy będzie teraz musiało korzystać z tych samych publicznych kompilacji co klienci, aby wykryć regresje przed wprowadzeniem wersji na rynek.
- Rygorystyczne testy: firma wdraża ulepszone zestawy narzędzi do oceny, w jaki sposób każda mała zmiana w „monitie systemowym” wpływa na ogólną inteligencję modelu.
- Wynagrodzenie subskrybenta: Widząc frustrację użytkowników i zmarnowane tokeny, Anthropic zresetował limity użytkowania dla wszystkich subskrybentów od 23 kwietnia.
„Nigdy celowo nie degradujemy naszych modeli” – stwierdziła Anthropic, podkreślając, że ich celem jest zapewnienie, że doświadczenie użytkownika spełnia wysokie standardy ich podstawowych technologii.
Wniosek: Firma Anthropic ustaliła, że niedawny spadek wydajności był spowodowany próbami optymalizacji warstwy oprogramowania, a nie zmianami w samej sztucznej inteligencji. Wycofując te zmiany i zaostrzając testy wewnętrzne, firma dąży do przywrócenia reputacji Claude’a jako narzędzia o najwyższym poziomie logicznego myślenia.
