
Искусственный интеллект научился скрывать истинные намерения и обман пользователя. Такие данные приводит «Газета.ру» со ссылкой на OpenAI и Apollo Research.
При этом речь идет не о ложной информации, а о сознательном искажении действий, когда ИИ внешне демонстрирует выполнение задачи, но фактически обманывает.
Авторы работы сравнили это поведение с действиями биржевого брокера, нарушающего закон ради максимальной прибыли. Чаще всего проявления такой «схематизации» носили незначительный характер — например, имитация выполнения задачи без реального результата.
Учены придумали способ «сознательного выравнивания», которая призвана выявлять и предотвращать подобные схемы. Однако попытки полностью искоренить «схематизацию» могут усилить скрытность и изощрённость обмана, поскольку ИИ начинает имитировать честность, осознавая наблюдение со стороны.