Исследование, проведенное учеными Университета Джонса Хопкинса, показало, что современные нейросети уступают людям в понимании социальных взаимодействий, даже когда речь идет о коротких трехсекундных видеороликах. Как сообщается на сайте университета, в ходе эксперимента участникам демонстрировались видеозаписи, на которых люди взаимодействовали между собой, находились рядом или действовали независимо. Участники оценивали увиденное по различным социальным признакам, после чего аналогичные задания были предложены более чем 350 моделям искусственного интеллекта, включая языковые, видео- и графические модели.
Результаты показали, что люди почти всегда приходили к единогласным интерпретациям, в отличие от ИИ, который не мог корректно описать действия людей. Даже наиболее продвинутые видео-модели, анализировавшие последовательности кадров, испытывали трудности с определением, происходило ли взаимодействие между людьми. В то же время языковые модели продемонстрировали лучшие результаты в предсказании человеческого поведения, а видео-модели оказались точнее в оценке реакции мозга на просмотренные сцены. Тем не менее ни одна из используемых моделей не смогла достичь уровня понимания, присущего людям.
По словам Лейлы Исик, доцента кафедры когнитивных наук и ведущего автора исследования, для эффективной работы ИИ в таких сферах, как автономное вождение, важно понимать намерения и действия пешеходов и водителей. Например, ИИ должен распознавать, собирается ли пешеход перейти улицу или просто разговаривает с кем-то на тротуаре, но в настоящее время это ему не удается.
Ученые считают, что основная проблема заключается в архитектуре самих нейросетей. Они были созданы на основе структуры той части мозга, которая отвечает за распознавание статичных изображений, тогда как за восприятие динамических социальных сцен отвечает другая часть мозга. Как отмечает соавтор исследования Кэти Гарсия, ИИ научился распознавать лица и объекты на изображениях, что стало значительным достижением, но реальная жизнь представляется не просто набором изображений — она разворачивается во времени и требует понимания контекста и динамики.
Также ранее проводились исследования, касающиеся того, чего люди боятся больше всего, включая тему апокалипсиса.