La répétition rapide et simple augmente considérablement la précision du LLM

16

Une nouvelle étude surprenante de Google Research révèle que le simple fait de répéter votre invite (en la copiant et en la collant pour qu’elle apparaisse deux fois) peut améliorer les performances des grands modèles de langage (LLM) jusqu’à 76 % sur des tâches qui ne nécessitent pas de raisonnement complexe. La découverte, d’une simplicité presque suspecte, s’applique aux principaux modèles tels que Gemini, GPT-4o, Claude et DeepSeek, avec un impact minimal sur la vitesse de génération.

Le « point mort causal » expliqué

L’amélioration provient des limites de la façon dont la plupart des LLM traitent le texte. Construits comme des modèles de langage « causals », ils lisent les informations strictement de gauche à droite. Cela crée une faiblesse critique : lors du traitement d’une invite, le modèle ne peut « s’occuper » que des jetons qu’il a déjà lus, pas de ceux qui viendront plus tard.

La répétition de l’invite transforme une entrée de en . Cela permet à la deuxième itération de tirer parti de l’attention bidirectionnelle, permettant ainsi au modèle de « revenir en arrière » sur l’intégralité de la requête pour résoudre les ambiguïtés et récupérer les détails avec plus de précision. Essentiellement, cela fournit au modèle une forme de « mémoire de travail ».

Les benchmarks montrent un succès retentissant

Les chercheurs ont testé la technique sur sept benchmarks, dont ARC, OpenBookOA, GSM8K et MMLU-Pro, en utilisant sept modèles différents. Les résultats étaient statistiquement significatifs : une répétition rapide a permis de remporter 47 des 70 tests en face-à-face par rapport à la ligne de base, sans aucune perte.

Un exemple frappant concerne un benchmark « NameIndex » où le modèle identifie le 25ème nom sur une liste de 50. Gemini 2.0 Flash-Lite n’a obtenu qu’une précision de 21,33 % dans le test de base ; avec une répétition rapide, la précision a bondi à 97,33 %. Cela démontre comment la répétition aide le modèle à conserver des informations qui pourraient autrement être perdues en un seul passage.

La latence reste inchangée

Contrairement à l’intuition, une répétition rapide n’a pratiquement aucun impact sur le temps de traitement. Le traitement LLM se divise en deux étapes : le pré-remplissage (traitement de l’entrée) et la génération (production de la sortie). La répétition de l’invite ne fait qu’augmenter le travail dans l’étape de pré-remplissage hautement parallélisable, que le matériel moderne gère efficacement. Les utilisateurs ne remarqueront aucun retard significatif.

Tâches de raisonnement et réponses directes

Cette technique est plus efficace pour les tâches nécessitant des réponses directes plutôt qu’un raisonnement étape par étape. Lorsqu’ils sont combinés avec l’incitation « Chaîne de pensée » (demandant au modèle de « penser étape par étape »), les gains diminuent, montrant des résultats neutres ou légèrement positifs. Cela suggère que les modèles de raisonnement effectuent déjà une forme de répétition en interne.

Implications stratégiques pour les entreprises

Cette découverte représente une rare optimisation « gratuite » pour le développement de l’IA. Les entreprises devraient tester la répétition rapide avant de passer à des modèles plus coûteux, car cela peut permettre à des modèles plus petits et plus rapides d’atteindre une précision comparable.

Les couches d’orchestration peuvent être ajustées pour doubler automatiquement les invites pour les points finaux sans raisonnement (par exemple, extraction d’entités, questions et réponses) sans intervention de l’utilisateur, améliorant ainsi les performances à grande échelle. Les équipes de sécurité doivent également mettre à jour les protocoles de red-teaming pour tester les attaques par « injection répétée » et envisager de renforcer les garde-fous de sécurité en répétant les invites système.

En conclusion, la répétition rapide offre un moyen simple mais puissant d’améliorer la précision du LLM, en particulier pour les tâches à réponse directe. Cela souligne les limites actuelles des architectures de modèles actuelles et fournit une solution de contournement pratique jusqu’à ce que des solutions plus avancées émergent.