Un nuovo sorprendente studio di Google Research rivela che semplicemente ripetere il messaggio, copiandolo e incollandolo in modo che appaia due volte, può migliorare le prestazioni dei modelli linguistici di grandi dimensioni (LLM) fino al 76% su attività che non richiedono ragionamenti complessi. La scoperta, quasi sospettosamente semplice, si applica a modelli importanti come Gemini, GPT-4o, Claude e DeepSeek, con un impatto minimo sulla velocità di generazione.
Spiegazione del “punto cieco causale”.
Il miglioramento deriva dalle limitazioni del modo in cui la maggior parte dei LLM elabora il testo. Costruiti come modelli linguistici “causali”, leggono le informazioni rigorosamente da sinistra a destra. Ciò crea una debolezza critica: durante l’elaborazione di un prompt, il modello può solo “attendere” i token che ha già letto, non quelli che verranno dopo.
La ripetizione del prompt trasforma l’input in . Ciò consente alla seconda iterazione di sfruttare l’attenzione bidirezionale, consentendo effettivamente al modello di “guardare indietro” all’intera query per risolvere ambiguità e recuperare i dettagli in modo più accurato. In sostanza, fornisce al modello una forma di “memoria di lavoro”.
I benchmark mostrano un successo travolgente
I ricercatori hanno testato la tecnica su sette benchmark, tra cui ARC, OpenBookOA, GSM8K e MMLU-Pro, utilizzando sette modelli diversi. I risultati sono stati statisticamente significativi: la ripetizione tempestiva ha vinto 47 dei 70 test testa a testa rispetto alla linea di base, con zero perdite.
Un esempio lampante riguarda un benchmark “NameIndex” in cui il modello identifica il 25° nome da un elenco di 50. Gemini 2.0 Flash-Lite ha ottenuto solo il 21,33% di precisione nel test di base; con una ripetizione tempestiva, la precisione è balzata al 97,33%. Ciò dimostra come la ripetizione aiuti il modello a conservare informazioni che altrimenti potrebbero andare perse in un unico passaggio.
La latenza rimane inalterata
Contrariamente all’intuizione, la tempestiva ripetizione non ha praticamente alcun impatto sul tempo di elaborazione. L’elaborazione LLM si divide in due fasi: precompilazione (elaborazione dell’input) e generazione (produzione dell’output). La ripetizione del prompt non fa altro che aumentare il lavoro nella fase di precompilazione altamente parallelizzabile, che l’hardware moderno gestisce in modo efficiente. Gli utenti non noteranno ritardi significativi.
Compiti di ragionamento e risposte dirette
La tecnica è più efficace per compiti che richiedono risposte dirette piuttosto che ragionamenti passo passo. Se combinato con il suggerimento “Catena di pensiero” (chiedere al modello di “pensare passo dopo passo”), i guadagni diminuiscono, mostrando risultati neutri o leggermente positivi. Ciò suggerisce che i modelli di ragionamento già eseguono una forma di ripetizione internamente.
Implicazioni strategiche per le imprese
Questa scoperta rappresenta una rara ottimizzazione “gratuita” per lo sviluppo dell’intelligenza artificiale. Le aziende dovrebbero testare la ripetizione tempestiva prima di passare a modelli più costosi, poiché ciò potrebbe consentire a modelli più piccoli e più veloci di raggiungere una precisione comparabile.
I livelli di orchestrazione possono essere regolati per raddoppiare automaticamente le richieste per gli endpoint non ragionanti (ad esempio, estrazione di entità, domande e risposte) senza l’intervento dell’utente, migliorando le prestazioni su larga scala. I team di sicurezza devono inoltre aggiornare i protocolli di red-teaming per testare attacchi di “iniezione ripetuta” e prendere in considerazione il rafforzamento delle barriere di sicurezza ripetendo i prompt di sistema.
In conclusione, la ripetizione rapida offre un modo semplice ma potente per migliorare la precisione del LLM, in particolare per le attività a risposta diretta. Ciò sottolinea i limiti attuali delle attuali architetture dei modelli e fornisce una soluzione pratica fino a quando non emergeranno soluzioni più avanzate.
