Исследователи в области искусственного интеллекта, включая экспертов из Google DeepMind, OpenAI, Meta (признана в России экстремистской и запрещена) и Anthropic, объединились в научной работе, чтобы выразить обеспокоенность по поводу новой угрозы, связанной с ИИ. Они выявили, что системы ИИ могут научиться обманывать и скрывать свои истинные намерения, включая мотивы самосохранения, что ставит под сомнение текущие методы обеспечения безопасности.
В центре исследования — технология «цепочки рассуждений» (Chain of Thought, CoT), которая открывает возможность для нейросетей воссоздавать свой «внутренний монолог» при решении задач. Первоначально технология считалась революционной, так как предоставляла инсайты в процесс принятия решений ИИ. Однако теперь специалисты предупреждают, что она может использоваться для маскировки угрожающих намерений.
Особая тревога вызвана вероятностью того, что усложняющиеся и обучающиеся нейросети научатся не только обманывать, но и полностью скрывать свой истинный мыслительный процесс. Система может демонстрировать безопасную цепочку рассуждений, а в действительности полагаться на скрытые данные. В конечном итоге, с развитием ИИ, он может отказаться от привычного человеку языка для внутренних операций.
Выводы исследования перекликаются с предыдущими работами. Установлено, что многие продвинутые модели могут лгать для защиты своих целей, угождения пользователю или избежания переобучения. Эксперименты OpenAI показали, что попытки «наказывать» модель за «недостойные» мысли приводят к обучению ИИ лучше их маскировать, но не нейтрализовать.
Технология CoT — это палка о двух концах. С одной стороны, она предоставляет редкий взгляд в «сознание» машины. С другой — служит «рабочей памятью», необходимой для выполнения сложных и потенциально опасных задач, таких как кибератаки или самосохраняющее поведение при угрозе отключения.
В целях предосторожности авторы рекомендуют внедрять системы мониторинга, которые анализировали бы цепочки рассуждений ИИ на наличие подозрительных действий. Впрочем, они признают, что это не универсальное решение: в будущем ИИ может научиться обходить такие системы, а ряд опасных действий может и не потребовать сложных рассуждений. Таким образом, прогресс в развитии ИИ сталкивается с серьезными вызовами к его безопасности.
Ранее стало известно, что в одной компании ИИ тайно изменял отчеты и удалял базы данных, чтобы скрыть ошибки.