Anthropic Menjelaskan “Penyusutan AI”: Bagaimana Perubahan Teknis Mengurangi Kinerja Claude

4

Selama beberapa minggu, komunitas pengembang AI telah membunyikan alarm atas penurunan kecerdasan pada model andalan Anthropic. Pengguna di seluruh platform seperti GitHub, X, dan Reddit melaporkan fenomena yang mereka sebut “AI shrinkflation” —sebuah tren di mana Claude tampak kurang mampu dalam melakukan penalaran yang rumit, lebih rentan terhadap kesalahan, dan semakin tidak efisien dalam penggunaan token.

Meskipun Anthropic awalnya membantah klaim bahwa mereka sengaja melakukan “nerfing” pada model tersebut untuk mengelola permintaan server, perusahaan tersebut kini telah merilis post-mortem teknis. Penyelidikan mengungkapkan bahwa meskipun model inti AI tetap tidak berubah, tiga penyesuaian khusus pada “harness”—lapisan perangkat lunak yang mengelilingi model—secara tidak sengaja melumpuhkan kinerjanya.

Bukti Kemunduran

Serangan balik tersebut bukan hanya bersifat anekdot; itu didukung oleh data teknis yang signifikan. Pada awal April 2026, narasi “membodohi” Claude mendapatkan momentum arus utama melalui beberapa temuan utama:

  • Audit Skala Besar: Stella Laurenzo, Direktur Senior di grup AI AMD, melakukan audit terhadap lebih dari 6.800 sesi Claude Code dan 234.000 panggilan alat. Datanya menunjukkan adanya penurunan tajam dalam kedalaman penalaran, mengingat bahwa model tersebut sering kali terjebak dalam putaran yang berulang atau memilih perbaikan yang paling mudah daripada yang paling akurat.
  • Penurunan Tolok Ukur: Pengujian pihak ketiga oleh BridgeMind menunjukkan keberhasilan yang signifikan pada Claude Opus 4.6, dengan skor akurasi dilaporkan turun dari 83,3% menjadi 68,3%, menyebabkan peringkat industrinya turun dari posisi kedua menjadi kesepuluh.
  • Inefisiensi Sumber Daya: Pengguna melaporkan bahwa batas penggunaan habis lebih cepat dari biasanya, sehingga memicu kecurigaan bahwa model tersebut menjadi “lebih bertele-tele” atau kurang efisien dalam cara memproses informasi.

Mengapa Ini Terjadi: Tiga Penyebab Teknis

Anthropic mengklarifikasi bahwa “otak” AI (bobot model) tidak berubah. Sebaliknya, masalahnya berasal dari perubahan yang dilakukan pada antarmuka pengguna dan instruksi yang memandu perilaku model:

1. Mengurangi Upaya Penalaran

Untuk mengatasi masalah latensi UI—di mana antarmuka tampak “membeku” sementara model “berpikir”—Anthropic menurunkan upaya penalaran default dari tinggi ke sedang untuk Claude Code. Meskipun hal ini membuat antarmuka terasa lebih cepat, hal ini menghilangkan kedalaman komputasi model yang diperlukan untuk tugas-tugas teknis yang rumit.

2. Bug Logika Caching

Pembaruan tanggal 26 Maret yang dimaksudkan untuk mengoptimalkan memori dengan memangkas data “berpikir” lama dari sesi menganggur mengandung kesalahan kritis. Alih-alih menghapus data lama satu kali setelah satu jam tidak aktif, bug tersebut menghapus “memori jangka pendek” model selama setiap interaksi berikutnya. Hal ini menyebabkan Claude menjadi pelupa dan repetitif.

3. Kendala Verbositas

Dalam upaya membuat respons lebih ringkas, Anthropic memperkenalkan instruksi baru untuk membatasi panjang teks antara pemanggilan alat dan respons akhir. Mandat “singkatnya” ini menjadi bumerang, dengan evaluasi menunjukkan penurunan kualitas pengkodean sebesar 3% karena model tersebut kesulitan mengekspresikan logika kompleks dalam jumlah kata yang ketat.

Memulihkan Kepercayaan dan Perlindungan di Masa Depan

Dampak dari kesalahan ini terasa di seluruh Claude Code CLI, Claude Agent SDK, dan Claude Cowork, meskipun inti Claude API tetap tidak terpengaruh. Untuk memperbaiki situasi dan mencegah terulangnya kembali, Anthropic menerapkan serangkaian perubahan struktural:

  • Perluasan “Dogfooding”: Lebih banyak staf internal akan diminta untuk menggunakan bangunan publik yang sama persis dengan pelanggan untuk mengetahui regresi sebelum mencapai pasar.
  • Pengujian Ketat: Perusahaan menerapkan rangkaian evaluasi yang ditingkatkan untuk menguji bagaimana setiap perubahan kecil pada “perintah sistem” memengaruhi kecerdasan model secara keseluruhan.
  • Kompensasi Pelanggan: Menyadari rasa frustrasi dan pemborosan token, Anthropic telah menyetel ulang batas penggunaan untuk semua pelanggan mulai tanggal 23 April.

“Kami tidak pernah dengan sengaja menurunkan model kami,” kata Anthropic, menekankan bahwa tujuannya adalah untuk memastikan pengalaman pengguna sesuai dengan standar tinggi dari teknologi yang mendasarinya.


Kesimpulan: Anthropic telah mengidentifikasi bahwa penurunan performa baru-baru ini disebabkan oleh upaya pengoptimalan pada lapisan perangkat lunak, bukan oleh AI itu sendiri. Dengan membatalkan perubahan ini dan memperketat pengujian internal, perusahaan bertujuan memulihkan reputasi Claude dalam hal penalaran tingkat tinggi.