Исследователи из Университета Северной Каролины разработали метод под названием «заморозка нейронов», который значительно повышает безопасность больших языковых моделей (LLM), таких как те, что используются в ChatGPT. Эта техника решает критическую проблему современных систем безопасности ИИ, которые легко обходятся с помощью хитрой разработки запросов.
Проблема существующих мер безопасности ИИ
В настоящее время большинство LLM используют простую проверку «да/нет» в начале запроса пользователя. Если запрос кажется безопасным, ИИ продолжает работу; в противном случае он отказывается. Однако пользователи неоднократно демонстрировали, что могут обмануть эти системы, формулируя вредоносные запросы нейтральным образом – например, маскируя злонамеренные инструкции под поэзию.
Исправление этих лазеек требует постоянного переобучения или отдельных патчей, что является медленным и реактивным процессом.
Как работает «заморозка нейронов»
Новый подход решает проблему на более глубоком уровне. Команда выявила определенные «нейроны» внутри нейронной сети, которые имеют решающее значение для безопасности. «Замораживая» эти нейроны во время тонкой настройки, они предотвращают потерю моделью этических границ, даже при адаптации к новым задачам или областям.
«Наша цель состояла в создании не поверхностной, а фундаментальной этической согласованности для LLM», — объяснил Цзяньвэй Ли, аспирант, возглавлявший исследование. «Заморозка ключевых нейронов сохраняет первоначальные характеристики безопасности модели, позволяя ей приобретать новые навыки».
Последствия
Это не просто незначительная корректировка. Это представляет собой фундаментальный сдвиг в подходе к безопасности ИИ. Вместо того, чтобы полагаться на поверхностные проверки, этот метод жестко кодирует этические ограничения в основную архитектуру модели. Команда надеется, что их работа вдохновит дальнейшие исследования в области ИИ-систем, которые могут постоянно оценивать безопасность своего собственного мышления.
Исследование, подробно описанное в статье «Гипотеза о поверхностной безопасности», будет представлено на Четырнадцатой Международной конференции по машинному обучению (ICLR2026) в следующем месяце.
Этот прорыв — важный шаг на пути к созданию более надежного и заслуживающего доверия ИИ. По мере того, как LLM все глубже интегрируются в повседневную жизнь, обеспечение их безопасности становится не просто желательным — это необходимо.





























