Innovazione nella sicurezza dell’intelligenza artificiale: il “congelamento dei neuroni” previene l’uso improprio di Chatbot

13

I ricercatori della North Carolina State University hanno sviluppato un metodo chiamato “congelamento dei neuroni” per migliorare in modo significativo la sicurezza dei modelli linguistici di grandi dimensioni (LLM) come quelli che alimentano ChatGPT. Questa tecnica risolve un difetto critico negli attuali sistemi di sicurezza dell’intelligenza artificiale, che possono essere facilmente aggirati da un’ingegneria tempestiva intelligente.

Il problema con le misure di sicurezza dell’IA esistenti

Attualmente, la maggior parte dei LLM utilizza un semplice controllo “sì/no” all’inizio di una query dell’utente. Se il prompt appare sicuro, l’IA procede; altrimenti rifiuta. Tuttavia, gli utenti hanno ripetutamente dimostrato di poter ingannare questi sistemi formulando richieste dannose in modi innocui, ad esempio mascherando istruzioni dannose come poesie.
Risolvere queste lacune richiede una riqualificazione costante o patch individuali, un processo lento e reattivo.

Come funziona il congelamento dei neuroni

Il nuovo approccio affronta il problema a un livello più profondo. Il team ha identificato “neuroni” specifici all’interno della rete neurale che sono cruciali per la sicurezza. “Congelando” questi neuroni durante la messa a punto, impediscono al modello di perdere i suoi confini etici, anche quando si adatta a nuovi compiti o ambiti.

“Il nostro obiettivo era creare un allineamento di sicurezza non superficiale per gli LLM”, ha spiegato Jianwei Li, il dottorando che ha guidato la ricerca. “Il congelamento dei neuroni chiave mantiene le caratteristiche di sicurezza originali del modello consentendogli allo stesso tempo di apprendere nuove competenze”.

Le implicazioni

Questa non è solo una piccola modifica. Rappresenta un cambiamento fondamentale nel modo in cui viene affrontata la sicurezza dell’IA. Invece di fare affidamento su controlli superficiali, questo metodo codifica i vincoli etici nell’architettura centrale del modello. Il team spera che il loro lavoro ispiri ulteriori ricerche sui sistemi di intelligenza artificiale in grado di valutare continuamente la sicurezza del proprio ragionamento.

La ricerca, dettagliata nel documento “Ipotesi di allineamento della sicurezza superficiale”, sarà presentata alla Quattordicesima Conferenza Internazionale sulle Rappresentazioni dell’Apprendimento (ICLR2026) il mese prossimo.

Questa svolta rappresenta un passo fondamentale verso la creazione di un’intelligenza artificiale più affidabile e degna di fiducia. Poiché gli LLM diventano sempre più integrati nella vita quotidiana, garantire la loro sicurezza non è più un optional: è essenziale.