Terobosan Keamanan AI: “Pembekuan Neuron” Mencegah Penyalahgunaan Chatbot

4

Para peneliti di North Carolina State University telah mengembangkan metode yang disebut “pembekuan neuron” untuk meningkatkan keamanan model bahasa besar (LLM) secara signifikan seperti yang mendukung ChatGPT. Teknik ini mengatasi kelemahan kritis dalam sistem keselamatan AI saat ini, yang dapat dengan mudah dilewati oleh rekayasa cepat yang cerdas.

Masalah Dengan Tindakan Keamanan AI yang Ada

Saat ini, sebagian besar LLM menggunakan pemeriksaan sederhana “ya/tidak” di awal permintaan pengguna. Jika perintah tampak aman, AI akan melanjutkan; jika tidak, ia menolak. Namun, pengguna telah berulang kali menunjukkan bahwa mereka dapat mengelabui sistem ini dengan menyampaikan permintaan berbahaya dengan cara yang tidak berbahaya – misalnya, menyamarkan instruksi jahat sebagai puisi.
Memperbaiki celah ini memerlukan pelatihan ulang terus-menerus atau patch individual, sebuah proses yang lambat dan reaktif.

Cara Kerja Pembekuan Neuron

Pendekatan baru ini mengatasi masalah ini pada tingkat yang lebih dalam. Tim mengidentifikasi “neuron” spesifik dalam jaringan saraf yang penting untuk keselamatan. Dengan “membekukan” neuron-neuron ini selama penyesuaian, mereka mencegah model kehilangan batasan etisnya, bahkan ketika beradaptasi dengan tugas atau domain baru.

“Tujuan kami adalah menciptakan keselarasan keselamatan non-dangkal untuk LLM,” jelas Jianwei Li, mahasiswa PhD yang memimpin penelitian ini. “Membekukan neuron utama akan mempertahankan karakteristik keselamatan asli model sekaligus memungkinkannya mempelajari keterampilan baru.”

Implikasinya

Ini bukan sekedar perubahan kecil. Hal ini mewakili perubahan mendasar dalam pendekatan keselamatan AI. Daripada mengandalkan pemeriksaan dangkal, metode ini memasukkan batasan etika ke dalam arsitektur inti model. Tim berharap pekerjaan mereka akan menginspirasi penelitian lebih lanjut mengenai sistem AI yang dapat terus menerus mengevaluasi keamanan pemikiran mereka sendiri.

Penelitian tersebut, yang dirinci dalam makalah “hipotesis penyelarasan keselamatan superfisial”, akan dipresentasikan pada Konferensi Internasional Keempat Belas tentang Representasi Pembelajaran (ICLR2026) bulan depan.

Terobosan ini merupakan langkah penting untuk membangun AI yang lebih andal dan tepercaya. Seiring dengan semakin terintegrasinya LLM ke dalam kehidupan sehari-hari, memastikan keselamatan mereka bukan lagi sebuah pilihan – namun hal ini sangatlah penting.