Samo powtórzenie zapytania znacznie poprawia dokładność LLM

8

Zaskakujące nowe badanie przeprowadzone przez Google Research pokazuje, że samo powtórzenie zapytania — skopiowanie i wklejenie go tak, aby pojawiło się dwukrotnie — może poprawić wydajność dużych modeli językowych (LLM) o 76% w przypadku zadań, które nie wymagają skomplikowanego rozumowania. To odkrycie, niemal podejrzanie proste, dotyczy wszystkich głównych modeli, takich jak Gemini, GPT-4o, Claude i DeepSeek, przy minimalnym wpływie na szybkość generacji.

Wyjaśnienie „przyczynowej ślepoty”.

Poprawa wynika z ograniczeń w sposobie przetwarzania tekstu przez większość nauczycieli LLM. Zbudowane jako modele języka „przyczynowego”, czytają informacje ściśle od lewej do prawej. Stwarza to krytyczną słabość: podczas przetwarzania żądania model może „zwracać uwagę” tylko na te tokeny, które już przeczytał, a nie na te, które przyjdą później.

Powtarzanie zapytania konwertuje dane wejściowe z na . Dzięki temu druga iteracja może wykorzystać uwagę dwukierunkową, skutecznie umożliwiając modelowi „spojrzenie wstecz” na całe zapytanie w celu rozwiązania niejednoznaczności i dokładniejszego wyodrębnienia szczegółów. Zasadniczo zapewnia to modelowi formę „RAM”.

Testy wykazują przytłaczający sukces

Naukowcy przetestowali tę technikę w siedmiu testach porównawczych, w tym ARC, OpenBookOA, GSM8K i MMLU-Pro, używając siedmiu różnych modeli. Wyniki były statystycznie istotne: Query Replication zwyciężyło w 47 z 70 bezpośrednich porównań z wartością bazową, bez strat.

Uderzający przykład: test „NameIndex”, w którym model identyfikuje 25. imię z listy 50. Gemini 2.0 Flash-Lite wykazał w podstawowym teście dokładność na poziomie zaledwie 21,33%; wraz z powtórzeniem zapytania dokładność wzrosła do 97,33%. To pokazuje, jak powtarzanie pomaga modelowi zachować informacje, które w przeciwnym razie mogłyby zostać utracone w jednym przebiegu.

Opóźnienie pozostaje niezmienione

Wbrew intuicji powtórzenie żądania nie ma praktycznie żadnego wpływu na czas przetwarzania. Przetwarzanie LLM dzieli się na dwa etapy: wstępne wypełnianie (przetwarzanie danych wejściowych) i generowanie (wytwarzanie danych wyjściowych). Powtarzanie zapytania zwiększa jedynie obciążenie wysoce równoległego etapu wstępnego wypełniania, z którym nowoczesny sprzęt radzi sobie skutecznie. Użytkownicy nie zauważą znaczących opóźnień.

Rozumowanie problemów a bezpośrednie odpowiedzi

Technika ta jest najskuteczniejsza w przypadku problemów wymagających bezpośrednich odpowiedzi, a nie rozumowania krok po kroku. W połączeniu z Łańcuchem Myśli (sugestia modelu „myśl krok po kroku”) korzyści są zmniejszone, wykazując neutralne lub lekko pozytywne wyniki. Sugeruje to, że modele rozumowania już dokonują w sobie pewnego rodzaju powtórzeń.

Strategiczne implikacje biznesowe

To odkrycie stanowi rzadką „darmową” optymalizację na potrzeby rozwoju sztucznej inteligencji. Firmy powinny przetestować powtarzalność zapytań przed przejściem na droższe modele, ponieważ może to pozwolić mniejszym i szybszym modelom na osiągnięcie porównywalnej dokładności.

Warstwy aranżacji można skonfigurować tak, aby automatycznie podwajały żądania dla punktów końcowych, które nie wymagają uzasadnienia (np. pobieranie jednostek, odpowiadanie na pytania) bez interwencji użytkownika, co poprawia wydajność na dużą skalę. Zespoły ds. bezpieczeństwa muszą także zaktualizować protokoły „zespołu czerwonego”, aby przetestować „ponowne wstrzyknięcia” i rozważyć wzmocnienie środków bezpieczeństwa poprzez powtarzanie żądań systemowych.

Podsumowując, powtarzanie zapytań oferuje prosty, ale skuteczny sposób na poprawę dokładności LLM, szczególnie w przypadku problemów z bezpośrednimi odpowiedziami. Podkreśla to obecne ograniczenia istniejących architektur modeli i zapewnia praktyczne rozwiązanie, dopóki nie staną się dostępne bardziej zaawansowane rozwiązania.