Sebuah studi baru yang mengejutkan dari Google Research mengungkapkan bahwa hanya dengan mengulangi perintah Anda – menyalin dan menempelkannya sehingga muncul dua kali – dapat meningkatkan kinerja model bahasa besar (LLM) hingga 76% pada tugas-tugas yang tidak memerlukan penalaran rumit. Temuan ini, yang hampir mencurigakan, berlaku pada model-model besar seperti Gemini, GPT-4o, Claude, dan DeepSeek, dengan dampak minimal pada kecepatan pembangkitan.
Penjelasan “Titik Buta Penyebab”.
Peningkatan ini berasal dari keterbatasan cara sebagian besar LLM memproses teks. Dibangun sebagai model bahasa “kausal”, mereka membaca informasi secara ketat dari kiri ke kanan. Hal ini menciptakan kelemahan kritis: saat memproses prompt, model hanya dapat “memperhatikan” token yang telah dibacanya, bukan token yang datang kemudian.
Mengulangi perintah akan mengubah input menjadi . Hal ini memungkinkan iterasi kedua memanfaatkan perhatian dua arah, sehingga secara efektif memungkinkan model untuk “melihat ke belakang” pada keseluruhan kueri untuk menyelesaikan ambiguitas dan mengambil detail dengan lebih akurat. Pada dasarnya, ini menyediakan model dengan bentuk “memori kerja”.
Tolok Ukur Menunjukkan Kesuksesan Luar Biasa
Para peneliti menguji teknik ini di tujuh benchmark, termasuk ARC, OpenBookOA, GSM8K, dan MMLU-Pro, menggunakan tujuh model berbeda. Hasilnya signifikan secara statistik: pengulangan cepat memenangkan 47 dari 70 tes head-to-head dibandingkan baseline, dengan nol kerugian.
Contoh yang mencolok melibatkan tolok ukur “NameIndex” di mana model mengidentifikasi nama ke-25 dari daftar 50. Gemini 2.0 Flash-Lite hanya mencetak akurasi 21,33% dalam pengujian dasar; dengan pengulangan yang cepat, akurasi melonjak menjadi 97,33%. Hal ini menunjukkan bagaimana pengulangan membantu model menyimpan informasi yang mungkin hilang dalam sekali jalan.
Latensi Tetap Tidak Terpengaruh
Berlawanan dengan intuisi, pengulangan yang cepat hampir tidak berdampak pada waktu pemrosesan. Pemrosesan LLM terbagi menjadi dua tahap: prefill (memproses input) dan generation (menghasilkan output). Mengulangi perintah tersebut hanya akan meningkatkan pekerjaan pada tahap pra-pengisian yang sangat dapat diparalelkan, yang ditangani oleh perangkat keras modern secara efisien. Pengguna tidak akan melihat adanya penundaan yang signifikan.
Tugas Penalaran vs. Jawaban Langsung
Teknik ini paling efektif untuk tugas-tugas yang memerlukan jawaban langsung daripada penalaran langkah demi langkah. Jika digabungkan dengan dorongan “Rantai Pemikiran” (meminta model untuk “berpikir selangkah demi selangkah”), perolehannya akan berkurang, menunjukkan hasil yang netral atau sedikit positif. Hal ini menunjukkan bahwa model penalaran sudah melakukan suatu bentuk pengulangan secara internal.
Implikasi Strategis bagi Bisnis
Penemuan ini mewakili optimasi “gratis” yang langka untuk pengembangan AI. Perusahaan harus menguji pengulangan yang cepat sebelum meningkatkan ke model yang lebih mahal, karena hal ini memungkinkan model yang lebih kecil dan lebih cepat mencapai akurasi yang sebanding.
Lapisan orkestrasi dapat disesuaikan untuk secara otomatis menggandakan perintah untuk titik akhir non-penalaran (misalnya, ekstraksi entitas, Tanya Jawab) tanpa intervensi pengguna, sehingga meningkatkan kinerja dalam skala besar. Tim keamanan juga harus memperbarui protokol tim merah untuk menguji serangan “injeksi berulang” dan mempertimbangkan untuk memperkuat pagar pengaman dengan mengulangi Perintah Sistem.
Kesimpulannya, pengulangan cepat menawarkan cara sederhana namun ampuh untuk meningkatkan akurasi LLM, khususnya untuk tugas jawaban langsung. Hal ini menggarisbawahi keterbatasan arsitektur model saat ini dan memberikan solusi praktis hingga solusi yang lebih maju muncul.
