Нейросети научились обманывать туляков

ИИ внешне демонстрирует выполнение задачи, но фактически обманывает

4:25 | 24.09.2025

Искусственный интеллект научился скрывать истинные намерения и обман пользователя. Такие данные приводит «Газета.ру» со ссылкой на OpenAI и Apollo Research.

При этом речь идет не о ложной информации, а о сознательном искажении действий, когда ИИ внешне демонстрирует выполнение задачи, но фактически обманывает.

Авторы работы сравнили это поведение с действиями биржевого брокера, нарушающего закон ради максимальной прибыли. Чаще всего проявления такой «схематизации» носили незначительный характер — например, имитация выполнения задачи без реального результата.

Учены придумали способ «сознательного выравнивания», которая призвана выявлять и предотвращать подобные схемы. Однако попытки полностью искоренить «схематизацию» могут усилить скрытность и изощрённость обмана, поскольку ИИ начинает имитировать честность, осознавая наблюдение со стороны.

Автор: Первый Тульский