Дивовижне нове дослідження Google Research показує, що просте повторення вашого запиту — копіювання та вставлення його, щоб він з’явився двічі — може підвищити продуктивність великих мовних моделей (LLM) на 76% у завданнях, які не вимагають складних міркувань. Це відкриття, майже підозріло просте, стосується всіх основних моделей, таких як Gemini, GPT-4o, Claude і DeepSeek, з мінімальним впливом на швидкість генерації.
Пояснення “причинної сліпоти”.
Покращення пов’язане з обмеженнями в тому, як більшість LLM обробляє текст. Побудовані як моделі «причинної» мови, вони читають інформацію строго зліва направо. Це створює критичну слабкість: під час обробки запиту модель може «звертати увагу» лише на ті токени, які вона вже прочитала, а не на ті, які прийдуть пізніше.
Повторення запиту перетворює вхідні дані з на . Це дозволяє другій ітерації використовувати двонаправлену увагу, фактично дозволяючи моделі «озирнутися» на весь запит, щоб вирішити неоднозначність і витягти деталі більш точно. По суті, це надає моделі форму «RAM».
Тести показують приголомшливий успіх
Дослідники протестували цю техніку на семи тестах, включаючи ARC, OpenBookOA, GSM8K і MMLU-Pro, використовуючи сім різних моделей. Результати були статистично значущими: Query Replication виграв 47 із 70 прямих порівнянь порівняно з базовим рівнем без втрат.
Яскравий приклад: тест «NameIndex», де модель визначає 25-е ім’я зі списку з 50. Gemini 2.0 Flash-Lite показав точність лише 21,33% у базовому тесті; при повторенні запиту точність зросла до 97,33%. Це демонструє, як повторення допомагає моделі зберігати інформацію, яка інакше могла б бути втрачена за один прохід.
Затримка залишається незмінною
Всупереч інтуїції, повторення запиту практично не впливає на час обробки. Обробка LLM поділяється на два етапи: попереднє заповнення (обробка вхідних даних) і генерація (вироблення виходу). Повторення запиту лише збільшує навантаження на високопаралелізований етап попереднього заповнення, з яким сучасне обладнання справляється ефективно. Користувачі не помітять значних затримок.
Обґрунтування проблем проти прямих відповідей
Цей прийом найбільш ефективний для проблем, які вимагають прямих відповідей, а не покрокових міркувань. У поєднанні з ланцюжком думок (пропозиція моделі «думати крок за кроком») переваги зменшуються, показуючи нейтральні або злегка позитивні результати. Це свідчить про те, що моделі міркувань уже виконують своєрідне повторення всередині себе.
Стратегічні наслідки для бізнесу
Це відкриття представляє рідкісну «безкоштовну» оптимізацію для розробки ШІ. Компанії повинні протестувати повторення запитів перед переходом на дорожчі моделі, оскільки це може дозволити меншим і швидшим моделям досягти порівнянної точності.
Рівні оркестровки можна налаштувати на автоматичне подвоєння запитів для кінцевих точок, які не потребують обґрунтування (наприклад, отримання об’єктів, відповіді на запитання) без втручання користувача, покращуючи продуктивність у масштабі. Командам безпеки також необхідно оновити протоколи «червоної команди», щоб перевірити «повторні ін’єкції» та розглянути можливість посилення заходів безпеки шляхом повторення системних запитів.
Підсумовуючи, повторення запитів пропонує простий, але ефективний спосіб покращити точність LLM, особливо для проблем із прямими відповідями. Це підкреслює поточні обмеження існуючих архітектур моделей і забезпечує практичне рішення, поки не стануть доступними більш вдосконалені рішення.



































































