Anthropic объясняет феномен «AI-шринкфляции»: как технические правки снизили производительность Claude

3

В течение нескольких недель сообщество разработчиков ИИ бьет тревогу из-за ощутимого снижения интеллектуальных способностей флагманских моделей Anthropic. Пользователи на таких платформах, как GitHub, X и Reddit, сообщали о явлении, которое они окрестили «AI-шринкфляцией» (AI shrinkflation) — тренде, при котором Claude становился менее способным к сложному рассуждению, чаще допускал ошибки и начал менее эффективно расходовать токены.

Хотя изначально Anthropic отрицала заявления о намеренном «занижении характеристик» (nerfing) модели для управления нагрузкой на серверы, теперь компания опубликовала технический отчет по итогам расследования. Выяснилось, что, хотя основные веса нейросети остались неизменными, три конкретные корректировки в «оболочке» (harness) — программных слоях, окружающих модель, — непреднамеренно подорвали её эффективность.

Доказательства деградации

Недовольство пользователей не было просто субъективным мнением; оно подкреплялось серьезными техническими данными. В начале апреля 2026 года дискуссия об «оглуплении» Claude получила широкий общественный резонанс благодаря нескольким ключевым выводам:

  • Масштабные аудиты: Стелла Лоренцо, старший директор группы ИИ в AMD, провела аудит более 6 800 сессий Claude Code и 234 000 вызовов инструментов. Её данные указали на резкое снижение глубины рассуждений: модель часто зацикливалась на повторениях или выбирала самый простой вариант решения вместо наиболее точного.
  • Падение показателей бенчмарков: Стороннее тестирование, проведенное BridgeMind, показало значительный удар по Claude Opus 4.6: показатели точности упали с 83,3% до 68,3%, из-за чего модель опустилась в отраслевом рейтинге со второго на десятое место.
  • Неэффективность ресурсов: Пользователи сообщали, что лимиты использования исчерпываются гораздо быстрее, чем обычно. Это породило подозрения, что модель стала более «многословной» или менее эффективной в обработке информации.

Причины произошедшего: три технических виновника

Anthropic пояснила, что «мозг» ИИ (веса модели) не менялся. Вместо этого проблемы возникли из-за изменений в пользовательском интерфейсе и инструкциях, направляющих поведение модели:

1. Снижение интенсивности рассуждений

Чтобы решить проблему задержек интерфейса (когда экран казался «зависшим», пока модель «думала»), Anthropic снизила уровень интенсивности рассуждений по умолчанию с высокого до среднего для Claude Code. Это сделало интерфейс более отзывчивым, но лишило модель вычислительной глубины, необходимой для сложных инженерных задач.

2. Баг в логике кэширования

Обновление от 26 марта, предназначенное для оптимизации памяти путем удаления устаревших данных о «ходax мыслей» из неактивных сессий, содержало критическую ошибку. Вместо того чтобы очищать старые данные один раз после часа бездействия, баг стирал «краткосрочную память» модели при каждом последующем взаимодействии. Это привело к тому, что Claude стала «забывчивой» и склонной к повторам.

3. Ограничения на многословность

В попытке сделать ответы более лаконичными, Anthropic ввела новые инструкции, ограничивающие объем текста между вызовами инструментов и финальными ответами. Эта установка на «краткость» дала обратный эффект: оценки показали снижение качества кодинга на 3%, так как модели было трудно выражать сложную логику в рамках строгих ограничений по количеству слов.

Восстановление доверия и будущие меры защиты

Последствия этих ошибок затронули Claude Code CLI, Claude Agent SDK и Claude Cowork, хотя основной Claude API остался нетронутым. Чтобы исправить ситуацию и предотвратить повторение подобных случаев, Anthropic внедряет ряд структурных изменений:

  • Расширенное «внутреннее тестирование» (dogfooding): Большее количество сотрудников компании теперь будет обязано использовать те же публичные сборки, что и клиенты, чтобы выявлять регрессии до их выхода на рынок.
  • Строгое тестирование: Компания внедряет улучшенные наборы инструментов для оценки того, как каждое незначительное изменение в «системном промпте» влияет на общий интеллект модели.
  • Компенсация подписчикам: Признавая разочарование пользователей и напрасно потраченные токены, Anthropic сбросила лимиты использования для всех подписчиков по состоянию на 23 апреля.

«Мы никогда не будем намеренно ухудшать наши модели», — заявили в Anthropic, подчеркнув, что их цель — обеспечить соответствие пользовательского опыта высоким стандартам их базовых технологий.


Заключение: Anthropic установила, что недавнее падение производительности было вызвано попытками оптимизации программного слоя, а не изменениями в самом ИИ. Откатив эти изменения и ужесточив внутреннее тестирование, компания стремится восстановить репутацию Claude как инструмента с высочайшим уровнем логического мышления.