Простое повторение запроса значительно повышает точность LLM

10

Удивительное новое исследование от Google Research показывает, что простое повторение вашего запроса — копирование и вставка его так, чтобы он отображался дважды — может улучшить производительность больших языковых моделей (LLM) на 76% в задачах, не требующих сложного рассуждения. Это открытие, почти подозрительно простое, применимо ко всем основным моделям, таким как Gemini, GPT-4o, Claude и DeepSeek, с минимальным влиянием на скорость генерации.

Объяснение «Причинной слепоты»

Улучшение связано с ограничениями в том, как большинство LLM обрабатывают текст. Построенные как «причинные» языковые модели, они читают информацию строго слева направо. Это создает критическую слабость: при обработке запроса модель может «обращать внимание» только на те токены, которые она уже прочитала, а не на те, которые идут позже.

Повторение запроса преобразует ввод из в . Это позволяет второй итерации использовать двунаправленное внимание, эффективно позволяя модели «оглядываться» на весь запрос, чтобы разрешить двусмысленность и более точно извлекать детали. По сути, это предоставляет модели форму «оперативной памяти».

Тесты показывают подавляющий успех

Исследователи протестировали эту технику на семи эталонных тестах, включая ARC, OpenBookOA, GSM8K и MMLU-Pro, используя семь различных моделей. Результаты были статистически значимыми: повторение запроса выиграло 47 из 70 прямых сравнений против базового уровня, без единого проигрыша.

Яркий пример: тест «NameIndex», где модель определяет 25-е имя из списка из 50. Gemini 2.0 Flash-Lite показал точность всего 21,33% в базовом тесте; с повторением запроса точность выросла до 97,33%. Это демонстрирует, как повторение помогает модели сохранять информацию, которая в противном случае могла бы быть потеряна при однократном проходе.

Задержка остается неизменной

Вопреки интуиции, повторение запроса практически не влияет на время обработки. Обработка LLM делится на два этапа: предварительное заполнение (обработка ввода) и генерация (выдача вывода). Повторение запроса увеличивает нагрузку только на высокопараллелизуемый этап предварительного заполнения, который современное оборудование обрабатывает эффективно. Пользователи не заметят значительных задержек.

Задачи на рассуждение против прямых ответов

Эта техника наиболее эффективна для задач, требующих прямых ответов, а не пошагового рассуждения. При сочетании с «Цепочкой мыслей» (предложение модели «подумать шаг за шагом») выгоды уменьшаются, показывая нейтральные или немного положительные результаты. Это говорит о том, что модели рассуждения уже выполняют своего рода повторение внутри себя.

Стратегические последствия для бизнеса

Это открытие представляет собой редкую «бесплатную» оптимизацию для разработки ИИ. Предприятиям следует протестировать повторение запроса, прежде чем переходить на более дорогие модели, поскольку это может позволить меньшим, более быстрым моделям достигать сопоставимой точности.

Слои оркестровки можно настроить для автоматического удвоения запросов для конечных точек, не требующих рассуждений (например, извлечение сущностей, ответы на вопросы), без вмешательства пользователя, что повысит производительность в масштабе. Командам безопасности также необходимо обновить протоколы «красной команды», чтобы протестировать «повторные инъекции» и рассмотреть возможность усиления мер безопасности, повторяя системные запросы.

В заключение, повторение запроса предлагает простой, но эффективный способ повышения точности LLM, особенно для задач с прямыми ответами. Это подчеркивает текущие ограничения существующих архитектур моделей и предоставляет практическое решение до появления более продвинутых решений.