Un nuevo y sorprendente estudio de Google Research revela que simplemente repetir el mensaje (copiarlo y pegarlo para que aparezca dos veces) puede mejorar el rendimiento de los modelos de lenguaje grandes (LLM) hasta en un 76 % en tareas que no requieren un razonamiento complejo. El hallazgo, casi sospechosamente sencillo, se aplica a los principales modelos como Gemini, GPT-4o, Claude y DeepSeek, con un impacto mínimo en la velocidad de generación.
Explicación del “punto ciego causal”
La mejora surge de las limitaciones de cómo la mayoría de los LLM procesan el texto. Construidos como modelos de lenguaje “causales”, leen la información estrictamente de izquierda a derecha. Esto crea una debilidad crítica: al procesar un mensaje, el modelo sólo puede “atender” a los tokens que ya ha leído, no a los que vienen después.
La repetición del mensaje transforma una entrada de en . Esto permite que la segunda iteración aproveche la atención bidireccional, lo que permite de manera efectiva que el modelo “mira hacia atrás” en toda la consulta para resolver ambigüedades y recuperar detalles con mayor precisión. Básicamente, proporciona al modelo una forma de “memoria de trabajo”.
Los puntos de referencia muestran un éxito abrumador
Los investigadores probaron la técnica en siete puntos de referencia, incluidos ARC, OpenBookOA, GSM8K y MMLU-Pro, utilizando siete modelos diferentes. Los resultados fueron estadísticamente significativos: la repetición rápida ganó 47 de 70 pruebas cara a cara contra la línea de base, con cero pérdidas.
Un ejemplo sorprendente involucra un punto de referencia “NameIndex” donde el modelo identifica el nombre número 25 de una lista de 50. Gemini 2.0 Flash-Lite obtuvo sólo un 21,33% de precisión en la prueba de referencia; con una repetición rápida, la precisión saltó al 97,33%. Esto demuestra cómo la repetición ayuda al modelo a retener información que de otro modo podría perderse en una sola pasada.
La latencia no se ve afectada
Contrariamente a la intuición, la repetición rápida prácticamente no tiene impacto en el tiempo de procesamiento. El procesamiento LLM se divide en dos etapas: prellenado (procesamiento de la entrada) y generación (producción de la salida). Repetir el mensaje solo aumenta el trabajo en la etapa de precarga altamente paralelizable, que el hardware moderno maneja de manera eficiente. Los usuarios no notarán ningún retraso significativo.
Tareas de razonamiento frente a respuestas directas
La técnica es más eficaz para tareas que requieren respuestas directas en lugar de razonamiento paso a paso. Cuando se combina con indicaciones de “Cadena de pensamiento” (pedirle al modelo que “piense paso a paso”), las ganancias disminuyen y muestran resultados neutrales o ligeramente positivos. Esto sugiere que los modelos de razonamiento ya realizan una forma de repetición internamente.
Implicaciones estratégicas para las empresas
Este descubrimiento representa una rara optimización “gratuita” para el desarrollo de la IA. Las empresas deben probar la repetición rápida antes de actualizar a modelos más caros, ya que esto puede permitir que modelos más pequeños y más rápidos alcancen una precisión comparable.
Las capas de orquestación se pueden ajustar para duplicar automáticamente las indicaciones para puntos finales que no razonan (por ejemplo, extracción de entidades, preguntas y respuestas) sin la intervención del usuario, lo que mejora el rendimiento a escala. Los equipos de seguridad también deben actualizar los protocolos de equipo rojo para probar ataques de “inyección repetida” y considerar reforzar las barreras de seguridad repitiendo las indicaciones del sistema.
En conclusión, la repetición rápida ofrece una manera simple pero poderosa de mejorar la precisión del LLM, particularmente para tareas de respuesta directa. Esto subraya las limitaciones actuales de las arquitecturas de modelos actuales y proporciona una solución práctica hasta que surjan soluciones más avanzadas.
