Ultime notizie e articoli

Anthropic spiega la “AI Shrinkflation”: come le modifiche tecniche hanno ridotto le prestazioni di Claude

25.04.2026

Da diverse settimane, la comunità degli sviluppatori di intelligenza artificiale ha lanciato l’allarme per un percepito declino dell’intelligenza dei modelli di punta di Anthropic. Gli utenti di piattaforme come GitHub, X e Reddit hanno segnalato un fenomeno che hanno soprannominato “riduzione dell’inflazione dell’intelligenza artificiale” : una tendenza in cui Claude sembrava meno capace di ragionamenti complessi, più incline agli errori e sempre più inefficiente nell’utilizzo dei token.

Sebbene Anthropic abbia inizialmente negato le affermazioni secondo cui stavano intenzionalmente “nerfando” il modello per gestire la domanda dei server, la società ha ora rilasciato un’autopsia tecnica. L’indagine rivela che, mentre i principali modelli di intelligenza artificiale sono rimasti invariati, tre aggiustamenti specifici al “cablaggio” – gli strati software che circondano il modello – ne hanno involontariamente paralizzato le prestazioni.

Le prove del declino

Il contraccolpo non è stato solo aneddotico; era supportato da dati tecnici significativi. All’inizio di aprile 2026, la narrazione di un “imbettimento” di Claude ha guadagnato slancio mainstream attraverso diverse scoperte chiave:

Verifica su larga scala: Stella Laurenzo, Senior Director del gruppo AI di AMD, ha condotto una verifica di oltre 6.800 sessioni di Claude Code e 234.000 chiamate a strumenti. I suoi dati suggerivano un netto calo della profondità del ragionamento, rilevando che il modello spesso cadeva in cicli ripetitivi o optava per la soluzione più semplice possibile piuttosto che per quella più accurata.
Cadute del benchmark: I test di terze parti condotti da BridgeMind hanno mostrato un successo significativo per Claude Opus 4.6, con punteggi di precisione che sono scesi da 83,3% a 68,3%, facendo scendere la sua classifica di settore dal secondo al decimo posto.
Inefficienza delle risorse: gli utenti hanno riferito che i limiti di utilizzo venivano esauriti molto più velocemente del solito, alimentando il sospetto che il modello stesse diventando “più prolisso” o meno efficiente nel modo in cui elaborava le informazioni.

Perché è successo: tre colpevoli tecnici

Anthropic ha chiarito che il “cervello” dell’IA (i pesi del modello) non è cambiato. Invece, i problemi derivavano dalle modifiche apportate all’interfaccia utente e alle istruzioni che guidavano il comportamento del modello:

1. Sforzo di ragionamento ridotto

Per risolvere i problemi di latenza dell’interfaccia utente, in cui l’interfaccia appariva “congelata” mentre il modello “pensava”, Anthropic ha ridotto lo sforzo di ragionamento predefinito da alto a medio per Claude Code. Anche se questo ha reso l’interfaccia più veloce, ha privato il modello della profondità computazionale richiesta per attività ingegneristiche complesse.

2. Il bug della logica di memorizzazione nella cache

Un aggiornamento del 26 marzo inteso a ottimizzare la memoria eliminando i vecchi dati “pensanti” dalle sessioni inattive conteneva un errore critico. Invece di cancellare i vecchi dati una volta dopo un’ora di inattività, il bug cancellava la “memoria a breve termine” del modello durante ogni interazione successiva. Ciò fece sì che Claude diventasse smemorato e ripetitivo.

3. Vincoli di verbosità

Nel tentativo di rendere le risposte più concise, Anthropic ha introdotto nuove istruzioni per limitare la lunghezza del testo tra le chiamate allo strumento e le risposte finali. Questo mandato di “brevità” si è ritorto contro, con valutazioni che hanno mostrato un calo del 3% nella qualità della codifica poiché il modello faticava a esprimere una logica complessa entro un numero limitato di parole.

Ripristinare la fiducia e le salvaguardie future

L’impatto di questi errori è stato avvertito su Claude Code CLI, Claude Agent SDK e Claude Cowork, sebbene l’API Claude principale sia rimasta inalterata. Per correggere la situazione e prevenire il ripetersi, Anthropic sta implementando una serie di cambiamenti strutturali:

“Dogfooding” ampliato: sarà richiesto a più personale interno di utilizzare esattamente le stesse build pubbliche dei clienti per individuare le regressioni prima che raggiungano il mercato.
Test rigorosi: l’azienda sta implementando suite di valutazione avanzate per testare in che modo ogni piccola modifica a un “prompt di sistema” influisce sull’intelligenza complessiva del modello.
Compensazione per gli abbonati: Riconoscendo la frustrazione e i token sprecati, Anthropic ha reimpostato i limiti di utilizzo per tutti gli abbonati a partire dal 23 aprile.

“Non degraderemo mai intenzionalmente i nostri modelli”, ha affermato Anthropic, sottolineando che l’obiettivo è garantire che l’esperienza dell’utente corrisponda agli elevati standard della tecnologia sottostante.

Conclusione: Anthropic ha identificato che i recenti cali di prestazioni sono stati causati da tentativi di ottimizzazione a livello del software piuttosto che dell’intelligenza artificiale stessa. Annullando questi cambiamenti e rafforzando i test interni, l’azienda mira a ripristinare la reputazione di Claude per il ragionamento di alto livello.