Anthropic legt “AI Shrinkflation” uit: hoe technische aanpassingen de prestaties van Claude verminderden

20

De AI-ontwikkelaarsgemeenschap luidt al wekenlang de noodklok over een waargenomen achteruitgang in de intelligentie van de vlaggenschipmodellen van Anthropic. Gebruikers op verschillende platforms zoals GitHub, X en Reddit rapporteerden een fenomeen dat ze “AI-shrimflatie” noemden: een trend waarbij Claude minder goed in staat leek tot complex redeneren, gevoeliger voor fouten en steeds inefficiënter leek met het gebruik van tokens.

Terwijl Anthropic aanvankelijk de beweringen ontkende dat ze opzettelijk het model ‘nerfden’ om de servervraag te beheren, heeft het bedrijf nu een technisch post-mortem vrijgegeven. Uit het onderzoek blijkt dat hoewel de kern-AI-modellen ongewijzigd bleven, drie specifieke aanpassingen aan het ‘harnas’ – de softwarelagen rondom het model – onbedoeld de prestaties ervan verlamden.

Het bewijs van achteruitgang

De reactie was niet louter anekdotisch; het werd ondersteund door belangrijke technische gegevens. Begin april 2026 kreeg het verhaal van een ‘verdoving’ van Claude een mainstream momentum door een aantal belangrijke bevindingen:

  • Grootschalige audits: Stella Laurenzo, Senior Director bij de AI-groep van AMD, voerde een audit uit van meer dan 6.800 Claude Code-sessies en 234.000 tool calls. Haar gegevens suggereerden een scherpe afname van de redeneerdiepte, waarbij ze opmerkte dat het model vaak in repetitieve lussen terechtkwam of koos voor de gemakkelijkst mogelijke oplossing in plaats van de meest nauwkeurige.
  • Benchmarkdalingen: Testen door derden door BridgeMind lieten een aanzienlijke hit zien voor Claude Opus 4.6, waarbij de nauwkeurigheidsscores naar verluidt daalden van 83,3% naar 68,3%, waardoor de ranking in de sector daalde van de tweede naar de tiende plaats.
  • Inefficiëntie van hulpbronnen: Gebruikers meldden dat de gebruikslimieten veel sneller opgebruikt waren dan normaal, wat het vermoeden wekte dat het model “woordiger” of minder efficiënt werd in de manier waarop het informatie verwerkte.

Waarom het gebeurde: drie technische boosdoeners

Anthropic verduidelijkte dat het ‘brein’ van de AI (de modelgewichten) niet was veranderd. In plaats daarvan kwamen de problemen voort uit wijzigingen in de gebruikersinterface en de instructies die het gedrag van het model begeleiden:

1. Verminderde redeneringsinspanning

Om problemen met de latentie van de gebruikersinterface op te lossen, waarbij de interface ‘bevroren’ leek terwijl het model ‘dacht’, verlaagde Anthropic de standaard redeneringsinspanning van hoog naar gemiddeld voor Claude Code. Hoewel hierdoor de interface sneller aanvoelde, ontnam het het model de rekendiepte die nodig was voor complexe technische taken.

2. De cachinglogica-bug

Een update van 26 maart, bedoeld om het geheugen te optimaliseren door oude “denkende” gegevens uit inactieve sessies te verwijderen, bevatte een kritieke fout. In plaats van de oude gegevens één keer na een uur inactiviteit te wissen, wist de bug het ‘kortetermijngeheugen’ van het model tijdens elke daaropvolgende interactie. Dit zorgde ervoor dat Claude vergeetachtig en repetitief werd.

3. Breedsprakigheidsbeperkingen

In een poging om de antwoorden beknopter te maken, introduceerde Anthropic nieuwe instructies om de tekstlengte tussen tooloproepen en definitieve antwoorden te beperken. Dit “beknopte” mandaat had een averechts effect: uit evaluaties bleek dat de codeerkwaliteit met 3% daalde, omdat het model moeite had om complexe logica binnen strikte woordentellingen uit te drukken.

Herstel van vertrouwen en toekomstige waarborgen

De impact van deze fouten was voelbaar in de Claude Code CLI, de Claude Agent SDK en Claude Cowork, hoewel de kern van de Claude API onaangetast bleef. Om de situatie recht te zetten en herhaling te voorkomen, voert Anthropic een reeks structurele veranderingen door:

  • Uitgebreide “Dogfooding”: Er zal meer intern personeel nodig zijn om exact dezelfde openbare builds te gebruiken als klanten om regressies op te vangen voordat ze de markt bereiken.
  • Rigoureus testen: Het bedrijf implementeert verbeterde evaluatiesuites om te testen hoe elke kleine wijziging in een “systeemprompt” de algehele intelligentie van het model beïnvloedt.
  • Abonneecompensatie: Anthropic is zich bewust van de frustratie en de verspilde tokens en heeft vanaf 23 april de gebruikslimieten opnieuw ingesteld voor alle abonnees.

“We degraderen onze modellen nooit opzettelijk”, aldus Anthropic, waarbij hij benadrukte dat het doel is ervoor te zorgen dat de gebruikerservaring overeenkomt met de hoge normen van hun onderliggende technologie.


Conclusie: Anthropic heeft vastgesteld dat recente prestatiedalingen werden veroorzaakt door optimalisatiepogingen in de softwarelaag en niet door de AI zelf. Door deze veranderingen ongedaan te maken en de interne tests aan te scherpen, wil het bedrijf Claude’s reputatie op het gebied van redeneren op hoog niveau herstellen.