Jednoduché opakování dotazu výrazně zlepšuje přesnost LLM

4

Překvapivá nová studie od Google Research ukazuje, že pouhé opakování dotazu – zkopírování a vložení tak, aby vypadal dvakrát – může zlepšit výkon velkých jazykových modelů (LLM) o 76 % u úkolů, které nevyžadují složité uvažování. Tento objev, až podezřele jednoduchý, platí pro všechny hlavní modely, jako jsou Gemini, GPT-4o, Claude a DeepSeek, s minimálním dopadem na míru výroby.

“Příčinná slepota” Vysvětleno

Zlepšení je způsobeno omezeními ve způsobu, jakým většina LLM zpracovává text. Jsou vytvořeny jako „kauzální“ jazykové modely a čtou informace striktně zleva doprava. To vytváří kritickou slabinu: při zpracování požadavku může model „věnovat pozornost“ pouze těm tokenům, které již přečetl, a ne těm, které přijdou později.

Opakování dotazu převede vstup z na . To umožňuje druhé iteraci využít obousměrnou pozornost, což efektivně umožňuje modelu „ohlédnout se“ na celý dotaz, vyřešit nejednoznačnost a přesněji extrahovat detaily. V podstatě to poskytuje modelu formu “RAM”.

Testy ukazují ohromný úspěch

Vědci testovali techniku na sedmi benchmarcích, včetně ARC, OpenBookOA, GSM8K a MMLU-Pro, pomocí sedmi různých modelů. Výsledky byly statisticky významné: Query Replication vyhrálo 47 ze 70 přímých srovnání se základní linií, bez jakýchkoli ztrát.

Pozoruhodný příklad: test „NameIndex“, kde model identifikuje 25. jméno ze seznamu 50. Gemini 2.0 Flash-Lite vykázal v základním testu přesnost pouze 21,33 %; s opakováním dotazu se přesnost zvýšila na 97,33 %. To ukazuje, jak opakování pomáhá modelu uchovat si informace, které by jinak mohly být ztraceny během jediného průchodu.

Latence zůstává nezměněna

Na rozdíl od intuice nemá opakování požadavku prakticky žádný vliv na dobu zpracování. Zpracování LLM je rozděleno do dvou fází: předvyplnění (zpracování vstupu) a generování (produkce výstupu). Opakování dotazu pouze zvyšuje zátěž vysoce paralelizovatelného předvyplňování, které moderní hardware efektivně zvládá. Uživatelé nezaznamenají výrazné zpoždění.

Problémy zdůvodnění versus přímé odpovědi

Tato technika je nejúčinnější u problémů, které vyžadují přímé odpovědi spíše než uvažování krok za krokem. V kombinaci s Chain of Thought (návrh modelu „myslet krok za krokem“) jsou přínosy sníženy a vykazují neutrální nebo mírně pozitivní výsledky. To naznačuje, že modely uvažování již v sobě provádějí jakési opakování.

Strategické obchodní důsledky

Tento objev představuje vzácnou „bezplatnou“ optimalizaci pro vývoj AI. Před přechodem na dražší modely by podniky měly otestovat opakování dotazů, protože to může umožnit menším a rychlejším modelům dosáhnout srovnatelné přesnosti.

Orchestrační vrstvy lze nakonfigurovat tak, aby automaticky zdvojnásobily požadavky na koncové body, které nevyžadují žádné uvažování (např. vyhledání entit, zodpovězení otázek) bez zásahu uživatele, čímž se zlepší výkon ve velkém měřítku. Bezpečnostní týmy také potřebují aktualizovat protokoly „červeného týmu“ pro testování „opětovných injekcí“ a zvážit posílení bezpečnostních opatření opakováním systémových požadavků.

Závěrem lze říci, že opakování dotazů nabízí jednoduchý, ale účinný způsob, jak zlepšit přesnost LLM, zejména u problémů s přímými odpověďmi. To zdůrazňuje současná omezení stávajících modelových architektur a poskytuje praktické řešení, dokud nebudou k dispozici pokročilejší řešení.