Дослідники з Університету Північної Кароліни розробили метод під назвою “заморозка нейронів”, який значно підвищує безпеку великих мовних моделей (LLM), таких як ті, що використовуються в ChatGPT. Ця техніка вирішує критичну проблему сучасних систем безпеки ІІ, які легко обходяться за допомогою хитрому розробці запитів.
Проблема існуючих заходів безпеки ІІ
В даний час більшість LLM використовують просту перевірку “так/ні” на початку запиту користувача. Якщо запит здається безпечним, ІІ продовжує роботу; інакше він відмовляється. Однак користувачі неодноразово демонстрували, що можуть обдурити ці системи, формулюючи шкідливі запити нейтральним чином, наприклад, маскуючи зловмисні інструкції під поезію.
Виправлення цих лазівок потребує постійного перенавчання або окремих патчів, що є повільним та реактивним процесом.
Як працює “заморозка нейронів”
Новий підхід вирішує проблему на глибшому рівні. Команда виявила ** певні “нейрони” всередині нейронної мережі, які мають вирішальне значення для безпеки. “Заморожуючи” ці нейрони під час тонкого налаштування, вони запобігають втраті моделлю етичних кордонів, навіть при адаптації до нових завдань або областей.
“Наша мета полягала у створенні не поверхневої, а фундаментальної етичної узгодженості для LLM”, – пояснив Цзяньвей Лі, аспірант, який очолював дослідження. “Заморожування ключових нейронів зберігає початкові характеристики безпеки моделі, дозволяючи їй набувати нових навичок”.
Наслідки
Це не просто незначне коригування. Це являє собою фундаментальне зрушення у підході до безпеки ІІ. Замість покладатися на поверхневі перевірки, цей метод жорстко кодує етичні обмеження в основну архітектуру моделі. Команда сподівається, що їхня робота надихне подальші дослідження в галузі ІІ-систем, які можуть постійно оцінювати безпеку свого власного мислення.
Дослідження, докладно описане у статті “Гіпотеза про поверхневу безпеку”, буде представлено на Чотирнадцятій Міжнародній конференції з машинного навчання (ICLR2026) наступного місяця.
Цей прорив – важливий крок на шляху до створення більш надійної і заслуговує на довіру ІІ. У міру того, як LLM все глибше інтегруються в повсякденне життя, забезпечення їх безпеки стає не просто бажаним – це необхідно.
