Um novo estudo surpreendente da Google Research revela que simplesmente repetir o seu prompt – copiá-lo e colá-lo para que apareça duas vezes – pode melhorar o desempenho de grandes modelos de linguagem (LLMs) em até 76% em tarefas que não exigem raciocínio complexo. A descoberta, quase suspeitamente simples, aplica-se aos principais modelos como Gemini, GPT-4o, Claude e DeepSeek, com impacto mínimo na velocidade de geração.
O “ponto cego causal” explicado
A melhoria decorre das limitações de como a maioria dos LLMs processa o texto. Construídos como modelos de linguagem “causais”, eles leem as informações estritamente da esquerda para a direita. Isso cria uma fraqueza crítica: ao processar um prompt, o modelo só pode “atender” aos tokens que já leu, e não aos que virão depois.
Repetir o prompt transforma uma entrada de em . Isso permite que a segunda iteração aproveite a atenção bidirecional, permitindo efetivamente que o modelo “olhe para trás” em toda a consulta para resolver ambiguidades e recuperar detalhes com mais precisão. Essencialmente, fornece ao modelo uma forma de “memória de trabalho”.
Benchmarks mostram sucesso esmagador
Os pesquisadores testaram a técnica em sete benchmarks, incluindo ARC, OpenBookOA, GSM8K e MMLU-Pro, usando sete modelos diferentes. Os resultados foram estatisticamente significativos: a repetição imediata venceu 47 dos 70 testes frente a frente em relação à linha de base, com zero perdas.
Um exemplo notável envolve um benchmark “NameIndex”, onde o modelo identifica o 25º nome de uma lista de 50. Gemini 2.0 Flash-Lite obteve apenas 21,33% de precisão no teste de linha de base; com repetição imediata, a precisão saltou para 97,33%. Isso demonstra como a repetição ajuda o modelo a reter informações que, de outra forma, poderiam ser perdidas em uma única passagem.
A latência permanece inalterada
Ao contrário da intuição, a repetição imediata praticamente não tem impacto no tempo de processamento. O processamento do LLM se divide em duas etapas: pré-preenchimento (processamento da entrada) e geração (produção da saída). Repetir o prompt apenas aumenta o trabalho no estágio de pré-preenchimento altamente paralelizável, que o hardware moderno gerencia com eficiência. Os usuários não notarão atrasos significativos.
Tarefas de raciocínio versus respostas diretas
A técnica é mais eficaz para tarefas que exigem respostas diretas, em vez de raciocínio passo a passo. Quando combinado com o estímulo da “Cadeia de Pensamento” (pedir ao modelo para “pensar passo a passo”), os ganhos diminuem, mostrando resultados neutros ou ligeiramente positivos. Isto sugere que os modelos de raciocínio já realizam uma forma de repetição internamente.
Implicações estratégicas para empresas
Esta descoberta representa uma rara otimização “gratuita” para o desenvolvimento de IA. As empresas devem testar a repetição imediata antes de atualizar para modelos mais caros, pois isso pode permitir que modelos menores e mais rápidos alcancem uma precisão comparável.
As camadas de orquestração podem ser ajustadas para duplicar automaticamente os prompts para endpoints sem raciocínio (por exemplo, extração de entidade, perguntas e respostas) sem intervenção do usuário, melhorando o desempenho em escala. As equipes de segurança também devem atualizar os protocolos de red-teaming para testar ataques de “injeção repetida” e considerar o reforço das proteções de segurança repetindo os prompts do sistema.
Concluindo, a repetição imediata oferece uma maneira simples, mas poderosa, de melhorar a precisão do LLM, especialmente para tarefas de resposta direta. Isto sublinha as limitações contínuas das arquiteturas de modelos atuais e fornece uma solução prática até que surjam soluções mais avançadas.




























