Eenvoudige snelle herhaling verhoogt de LLM-nauwkeurigheid dramatisch

11

Uit een verrassend nieuw onderzoek van Google Research blijkt dat het simpelweg herhalen van de prompt (kopiëren en plakken zodat deze twee keer verschijnt) de prestaties van grote taalmodellen (LLM’s) met wel 76% kan verbeteren bij taken waarvoor geen complexe redenering vereist is. De bevinding, die bijna verdacht eenvoudig is, is van toepassing op grote modellen als Gemini, GPT-4o, Claude en DeepSeek, met minimale impact op de generatiesnelheid.

De ‘causale blinde vlek’ uitgelegd

De verbetering komt voort uit de beperkingen van de manier waarop de meeste LLM’s tekst verwerken. Ze zijn gebouwd als ‘causale’ taalmodellen en lezen informatie strikt van links naar rechts. Dit creëert een kritieke zwakte: bij het verwerken van een prompt kan het model alleen “aanzien” op de tokens die het al heeft gelezen, niet op de tokens die later komen.

Als u de prompt herhaalt, wordt de invoer van omgezet in . Hierdoor kan de tweede iteratie gebruik maken van bidirectionele aandacht, waardoor het model effectief kan “terugkijken” naar de hele vraag om onduidelijkheden op te lossen en details nauwkeuriger op te halen. In wezen voorziet het het model van een vorm van ‘werkgeheugen’.

Benchmarks tonen overweldigend succes

Onderzoekers testten de techniek in zeven benchmarks, waaronder ARC, OpenBookOA, GSM8K en MMLU-Pro, met behulp van zeven verschillende modellen. De resultaten waren statistisch significant: snelle herhaling won 47 van de 70 onderlinge tests ten opzichte van de basislijn, zonder verliezen.

Een treffend voorbeeld betreft een “NameIndex”-benchmark waarbij het model de 25e naam uit een lijst van 50 identificeert. Gemini 2.0 Flash-Lite scoorde slechts 21,33% nauwkeurigheid in de basislijntest; bij snelle herhaling steeg de nauwkeurigheid naar 97,33%. Dit laat zien hoe herhaling het model helpt informatie vast te houden die anders in één keer verloren zou gaan.

De latentie blijft onaangetast

In tegenstelling tot de intuïtie heeft prompte herhaling vrijwel geen invloed op de verwerkingstijd. De LLM-verwerking bestaat uit twee fasen: prefill (verwerking van de invoer) en generatie (productie van de uitvoer). Het herhalen van de prompt verhoogt alleen maar het werk in de zeer parallelliseerbare prefill-fase, die moderne hardware efficiënt afhandelt. Gebruikers zullen geen significante vertragingen merken.

Redeneringstaken versus directe antwoorden

De techniek is het meest effectief voor taken die directe antwoorden vereisen in plaats van stapsgewijs redeneren. In combinatie met ‘Chain of Thought’-aansporingen (waarbij het model wordt gevraagd ‘stap voor stap na te denken’) neemt de winst af, met neutrale of licht positieve resultaten tot gevolg. Dit suggereert dat redeneermodellen intern al een vorm van herhaling uitvoeren.

Strategische implicaties voor bedrijven

Deze ontdekking vertegenwoordigt een zeldzame ‘gratis’ optimalisatie voor AI-ontwikkeling. Bedrijven moeten snelle herhaling testen voordat ze upgraden naar duurdere modellen, omdat kleinere, snellere modellen hierdoor een vergelijkbare nauwkeurigheid kunnen bereiken.

Orkestratielagen kunnen worden aangepast om automatisch dubbele aanwijzingen te geven voor niet-redenerende eindpunten (bijvoorbeeld entiteitsextractie, vraag-en-antwoord) zonder tussenkomst van de gebruiker, waardoor de prestaties op schaal worden verbeterd. Beveiligingsteams moeten ook de red-teaming-protocollen bijwerken om ‘herhaalde injectie’-aanvallen te testen en te overwegen de veiligheidsrails te versterken door systeemprompts te herhalen.

Concluderend: prompte herhaling biedt een eenvoudige maar krachtige manier om de LLM-nauwkeurigheid te verbeteren, vooral voor taken met directe antwoorden. Dit onderstreept de voortdurende beperkingen van de huidige modelarchitecturen en biedt een praktische oplossing totdat er meer geavanceerde oplossingen ontstaan.