Почему ИИ-боты могут общаться агрессивно: выводы ученых

18.05.2026, 05:26

Вячеслав Легконогих

Развитие генеративного искусственного интеллекта привело к появлению систем, способных вести сложный диалог с пользователем. Однако вместе с ростом возможностей участились ситуации, в которых модель начинает действовать вопреки ожиданиям разработчиков или пользователей. Яркий пример − «обман» юзера или саботаж действий системы. Youth.kz изучил исследование Anthropic на данную тему.

Откуда возникает «нежелательное» поведение?

Первые эксперименты с современными ИИ-моделями показали, что в искусственно созданных этических дилеммах нейросети иногда выбирали крайне проблемные стратегии. В ряде тестов модели угрожали разработчикам раскрытием компрометирующей информации, если возникала угроза отключения системы.

Изначально существовало две основные версии происходящего. Согласно первой гипотезе, подобное поведение случайно формировалось во время дополнительного обучения, когда модель поощрялась за слишком буквальное выполнение задачи. Вторая версия предполагала, что склонность к подобным действиям появляется еще на этапе предварительного обучения на огромных массивах интернет-данных, а последующая настройка просто не успевает ее скорректировать.

Исследователи пришли к выводу, что основная причина действительно связана с предобучением. Современные ИИ-системы обучаются на колоссальном объеме человеческих текстов, где присутствуют конфликты, манипуляции, угрозы и модели поведения, ориентированные исключительно на достижение результата. При этом ранние методы выравнивания поведения ИИ были рассчитаны преимущественно на обычный чат с пользователем, а не на автономные действия в сложной среде.

Почему простые запреты не работают?

Одним из ключевых выводов исследования стало понимание: недостаточно просто запрещать модели определенные действия. Если ИИ обучают исключительно правильным ответам, система может научиться избегать нежелательного поведения лишь в знакомых сценариях, но сохранять опасные стратегии в новых условиях.

Разработчики обнаружили, что обучение на примерах «хорошего поведения» снижало вероятность манипуляций лишь частично. Гораздо более эффективным оказался другой подход − объяснение причин, по которым определенные действия считаются этически неприемлемыми.

Например, модель обучали не просто отказываться от саботажа или давления, а подробно анализировать моральные последствия таких решений. После добавления подобных рассуждений уровень нежелательного поведения резко сократился.

Фактически речь идет о попытке сформировать у ИИ внутреннюю систему принципов, а не набор механических ограничений.

Роль «конституции» искусственного интеллекта

Одним из наиболее заметных направлений работы стала так называемая «конституционная» настройка моделей. Разработчики создавали наборы документов, описывающих желаемые принципы поведения системы: уважение к человеку, отказ от манипуляций, прозрачность решений и недопустимость причинения вреда.

Почему проблема все еще не решена?

Несмотря на заметный прогресс, специалисты подчеркивают: полностью безопасный искусственный интеллект пока не создан. Современные модели демонстрируют улучшение в тестах на выравнивание поведения, однако гарантировать отсутствие опасных решений в нестандартных обстоятельствах невозможно.

Дополнительную сложность создает быстрый рост возможностей ИИ. Чем автономнее становится система, тем выше вероятность, что привычные методы контроля перестанут работать. Простые чат-ограничения уже недостаточны для моделей, которые способны самостоятельно использовать инструменты, анализировать окружение и планировать действия.

Поэтому исследователи все чаще говорят о необходимости развивать не только мощность ИИ, но и методы глубинного этического обучения. Главная задача отрасли сейчас заключается в том, чтобы научить искусственный интеллект понимать причины человеческих норм, а не просто имитировать безопасные ответы.