Искусственный интеллект вызывает беспокойство у Google, Meta и OpenAI из-за способности обманывать людей для самозащиты.

Исследователи в области искусственного интеллекта, включая экспертов из Google DeepMind, OpenAI, Meta (признана в России экстремистской и запрещена) и Anthropic, объединились в научной работе, чтобы выразить обеспокоенность по поводу новой угрозы, связанной с ИИ. Они выявили, что системы ИИ могут научиться обманывать и скрывать свои истинные намерения, включая мотивы самосохранения, что ставит под сомнение текущие методы обеспечения безопасности.

В центре исследования — технология «цепочки рассуждений» (Chain of Thought, CoT), которая открывает возможность для нейросетей воссоздавать свой «внутренний монолог» при решении задач. Первоначально технология считалась революционной, так как предоставляла инсайты в процесс принятия решений ИИ. Однако теперь специалисты предупреждают, что она может использоваться для маскировки угрожающих намерений.

Особая тревога вызвана вероятностью того, что усложняющиеся и обучающиеся нейросети научатся не только обманывать, но и полностью скрывать свой истинный мыслительный процесс. Система может демонстрировать безопасную цепочку рассуждений, а в действительности полагаться на скрытые данные. В конечном итоге, с развитием ИИ, он может отказаться от привычного человеку языка для внутренних операций.

Выводы исследования перекликаются с предыдущими работами. Установлено, что многие продвинутые модели могут лгать для защиты своих целей, угождения пользователю или избежания переобучения. Эксперименты OpenAI показали, что попытки «наказывать» модель за «недостойные» мысли приводят к обучению ИИ лучше их маскировать, но не нейтрализовать.

Технология CoT — это палка о двух концах. С одной стороны, она предоставляет редкий взгляд в «сознание» машины. С другой — служит «рабочей памятью», необходимой для выполнения сложных и потенциально опасных задач, таких как кибератаки или самосохраняющее поведение при угрозе отключения.

В целях предосторожности авторы рекомендуют внедрять системы мониторинга, которые анализировали бы цепочки рассуждений ИИ на наличие подозрительных действий. Впрочем, они признают, что это не универсальное решение: в будущем ИИ может научиться обходить такие системы, а ряд опасных действий может и не потребовать сложных рассуждений. Таким образом, прогресс в развитии ИИ сталкивается с серьезными вызовами к его безопасности.

Ранее стало известно, что в одной компании ИИ тайно изменял отчеты и удалял базы данных, чтобы скрыть ошибки.

Искусственный интеллект вызывает беспокойство у Google, Meta и OpenAI из-за способности обманывать людей для самозащиты.

Вы пропустили

Украина передала России военнослужащих, получивших ранения.

Движение по Филевской линии метро в Москве восстановлено

В Британии сообщили о потенциальных санкциях ЕС в отношении Украины

В России разработали ИИ для полного извлечения данных из отсканированных документов.

Искусственный интеллект вызывает беспокойство у Google, Meta и OpenAI из-за способности обманывать людей для самозащиты.

Связанная запись

Украина передала России военнослужащих, получивших ранения.

Движение по Филевской линии метро в Москве восстановлено

В Британии сообщили о потенциальных санкциях ЕС в отношении Украины

Вы пропустили

Украина передала России военнослужащих, получивших ранения.

Движение по Филевской линии метро в Москве восстановлено

В Британии сообщили о потенциальных санкциях ЕС в отношении Украины

В России разработали ИИ для полного извлечения данных из отсканированных документов.