Depuis plusieurs semaines, la communauté des développeurs d’IA tire la sonnette d’alarme face à un déclin perçu de l’intelligence des modèles phares d’Anthropic. Les utilisateurs de plates-formes telles que GitHub, X et Reddit ont signalé un phénomène qu’ils ont surnommé « rétraction de l’IA » : une tendance dans laquelle Claude semblait moins capable de raisonnement complexe, plus sujet aux erreurs et de plus en plus inefficace dans l’utilisation des jetons.
Alors qu’Anthropic avait initialement nié les affirmations selon lesquelles ils « nerfaient » intentionnellement le modèle pour gérer la demande de serveur, la société a maintenant publié une analyse technique post-mortem. L’enquête révèle que même si les modèles d’IA de base sont restés inchangés, trois ajustements spécifiques du « faisceau » (les couches logicielles entourant le modèle) ont involontairement paralysé ses performances.
Les preuves du déclin
La réaction négative n’était pas simplement anecdotique ; il était étayé par des données techniques importantes. Début avril 2026, le récit d’un « abrutissement » de Claude a pris de l’ampleur grâce à plusieurs conclusions clés :
- Audits à grande échelle : Stella Laurenzo, directrice principale du groupe IA d’AMD, a mené un audit de plus de 6 800 sessions Claude Code et 234 000 appels d’outils. Ses données suggèrent une forte baisse de la profondeur du raisonnement, notant que le modèle tombait souvent dans des boucles répétitives ou optait pour la solution la plus simple possible plutôt que la plus précise.
- Baisse du benchmark : Les tests tiers effectués par BridgeMind ont montré un succès significatif pour Claude Opus 4.6, avec des scores de précision qui seraient passés de 83,3 % à 68,3 %, faisant chuter son classement de l’industrie de la deuxième à la dixième place.
- Inefficacité des ressources : les utilisateurs ont signalé que les limites d’utilisation étaient épuisées beaucoup plus rapidement que d’habitude, alimentant les soupçons selon lesquels le modèle devenait « plus verbeux » ou moins efficace dans la façon dont il traitait les informations.
Pourquoi c’est arrivé : trois coupables techniques
Anthropic a précisé que le « cerveau » de l’IA (les poids du modèle) n’avait pas changé. Au lieu de cela, les problèmes provenaient des modifications apportées à l’interface utilisateur et des instructions guidant le comportement du modèle :
1. Effort de raisonnement réduit
Pour résoudre les problèmes de latence de l’interface utilisateur (où l’interface apparaissait « figée » tandis que le modèle « réfléchissait »), Anthropic a réduit l’effort de raisonnement par défaut de élevé à moyen pour Claude Code. Même si cela rendait l’interface plus rapide, cela privait le modèle de la profondeur de calcul requise pour les tâches d’ingénierie complexes.
2. Le bug de la logique de mise en cache
Une mise à jour du 26 mars destinée à optimiser la mémoire en supprimant les anciennes données « de réflexion » des sessions inactives contenait une erreur critique. Au lieu d’effacer les anciennes données une fois après une heure d’inactivité, le bug a effacé la « mémoire à court terme » du modèle lors de chaque interaction ultérieure. Cela a rendu Claude oublieux et répétitif.
3. Contraintes de verbosité
Dans le but de rendre les réponses plus concises, Anthropic a introduit de nouvelles instructions pour limiter la longueur du texte entre les appels d’outils et les réponses finales. Ce mandat de « brièveté » s’est retourné contre vous, les évaluations montrant une baisse de 3 % de la qualité du codage alors que le modèle avait du mal à exprimer une logique complexe dans un nombre de mots strict.
Restaurer la confiance et les garanties futures
L’impact de ces erreurs s’est fait sentir dans la CLI Claude Code, le SDK Claude Agent et Claude Cowork, bien que l’API principale Claude ne soit pas affectée. Pour remédier à la situation et éviter que cela ne se reproduise, Anthropic met en œuvre une série de changements structurels :
- “Dogfooding” étendu : Un plus grand nombre de membres du personnel interne devront utiliser exactement les mêmes versions publiques que les clients pour détecter les régressions avant qu’elles n’atteignent le marché.
- Tests rigoureux : La société déploie des suites d’évaluation améliorées pour tester comment chaque modification mineure apportée à une « invite système » affecte l’intelligence globale du modèle.
- Compensation des abonnés : Conscient de la frustration et du gaspillage de jetons, Anthropic a réinitialisé les limites d’utilisation pour tous les abonnés à compter du 23 avril.
“Nous ne dégradons jamais intentionnellement nos modèles”, a déclaré Anthropic, soulignant que l’objectif est de garantir que l’expérience utilisateur correspond aux normes élevées de leur technologie sous-jacente.
Conclusion : Anthropic a identifié que les récentes baisses de performances étaient causées par des tentatives d’optimisation au niveau de la couche logicielle plutôt que par l’IA elle-même. En annulant ces changements et en renforçant les tests internes, la société vise à restaurer la réputation de Claude en matière de raisonnement de haut niveau.
