Eine überraschende neue Studie von Google Research zeigt, dass das einfache Wiederholen Ihrer Eingabeaufforderung – also das Kopieren und Einfügen, sodass sie zweimal erscheint – die Leistung großer Sprachmodelle (LLMs) bei Aufgaben, die keine komplexe Argumentation erfordern, um bis zu 76 % verbessern kann. Die fast verdächtig einfache Erkenntnis gilt für große Modelle wie Gemini, GPT-4o, Claude und DeepSeek und hat nur minimale Auswirkungen auf die Generierungsgeschwindigkeit.
Der „kausale blinde Fleck“ erklärt
Die Verbesserung ergibt sich aus den Einschränkungen bei der Textverarbeitung der meisten LLMs. Als „kausale“ Sprachmodelle aufgebaut, lesen sie Informationen streng von links nach rechts. Dies führt zu einer kritischen Schwachstelle: Bei der Verarbeitung einer Eingabeaufforderung kann das Modell nur die Token „betreuen“, die es bereits gelesen hat, nicht die, die später kommen.
Durch Wiederholen der Eingabeaufforderung wird die Eingabe „“ in „“ umgewandelt. Dadurch kann die zweite Iteration die bidirektionale Aufmerksamkeit nutzen, sodass das Modell effektiv auf die gesamte Abfrage zurückblicken kann, um Unklarheiten zu beseitigen und Details genauer abzurufen. Im Wesentlichen stellt es dem Modell eine Art „Arbeitsgedächtnis“ zur Verfügung.
Benchmarks zeigen überwältigenden Erfolg
Die Forscher testeten die Technik in sieben Benchmarks, darunter ARC, OpenBookOA, GSM8K und MMLU-Pro, und verwendeten sieben verschiedene Modelle. Die Ergebnisse waren statistisch signifikant: Die sofortige Wiederholung gewann 47 von 70 direkten Tests gegen die Grundlinie, ohne Verluste.
Ein eindrucksvolles Beispiel ist ein „NameIndex“-Benchmark, bei dem das Modell den 25. Namen aus einer Liste von 50 identifiziert. Gemini 2.0 Flash-Lite erzielte im Basistest nur eine Genauigkeit von 21,33 %; Bei sofortiger Wiederholung stieg die Genauigkeit auf 97,33 %. Dies zeigt, wie Wiederholungen dem Modell helfen, Informationen zu behalten, die andernfalls in einem einzigen Durchgang verloren gehen könnten.
Die Latenz bleibt davon unberührt
Entgegen der Intuition hat eine zeitnahe Wiederholung praktisch keinen Einfluss auf die Bearbeitungszeit. Die LLM-Verarbeitung gliedert sich in zwei Phasen: Vorbefüllung (Verarbeitung der Eingabe) und Generierung (Erstellung der Ausgabe). Das Wiederholen der Eingabeaufforderung erhöht nur die Arbeit in der hochgradig parallelisierbaren Vorfüllphase, die moderne Hardware effizient bewältigt. Benutzer werden keine nennenswerten Verzögerungen bemerken.
Argumentationsaufgaben vs. direkte Antworten
Die Technik ist am effektivsten für Aufgaben, die direkte Antworten anstelle einer schrittweisen Argumentation erfordern. In Kombination mit der Aufforderung zur „Gedankenkette“ (die das Modell auffordert, „Schritt für Schritt zu denken“) verringern sich die Gewinne und zeigen neutrale oder leicht positive Ergebnisse. Dies deutet darauf hin, dass Argumentationsmodelle intern bereits eine Form der Wiederholung durchführen.
Strategische Implikationen für Unternehmen
Diese Entdeckung stellt eine seltene „kostenlose“ Optimierung für die KI-Entwicklung dar. Unternehmen sollten die zeitnahe Wiederholung testen, bevor sie auf teurere Modelle umsteigen, da dadurch möglicherweise kleinere, schnellere Modelle eine vergleichbare Genauigkeit erreichen können.
Orchestrierungsebenen können angepasst werden, um automatisch doppelte Eingabeaufforderungen für Endpunkte ohne Argumentation (z. B. Entitätsextraktion, Fragen und Antworten) ohne Benutzereingriff bereitzustellen, wodurch die Leistung im großen Maßstab verbessert wird. Sicherheitsteams müssen außerdem Red-Teaming-Protokolle aktualisieren, um „Repeated-Injection“-Angriffe zu testen, und erwägen, die Sicherheitsleitplanken durch die Wiederholung von Systemaufforderungen zu verstärken.
Zusammenfassend lässt sich sagen, dass die schnelle Wiederholung eine einfache, aber wirkungsvolle Möglichkeit bietet, die LLM-Genauigkeit zu verbessern, insbesondere bei Aufgaben mit direkter Antwort. Dies unterstreicht die anhaltenden Einschränkungen aktueller Modellarchitekturen und bietet einen praktischen Workaround, bis fortschrittlichere Lösungen auftauchen.
