Многие специалисты считают, что компьютер никогда не пройдет такое испытание.
В исследовании, опубликованном в журнале Nature Human Behavior, группа провела тесты на теорию разума для добровольцев и сравнила средние результаты с результатами двух типов больших лингвистических моделей (LLM), пишет techinsider.
За последние несколько лет LLM, такие как ChatGPT, завоевали всеобщий интерес. Быстро росли их возможности. Одной из новых возможностей стало умение определять настроение или психическое состояние человека-пользователя.
В новом исследовании ученые задались вопросом, продвинулись ли способности LLM до такой степени, что они могут выполнять тесты на теорию разума наравне с людьми.
Тесты на теорию разума были сравнительно давно разработаны психологами для оценки психического и/или эмоционального состояния человека во время социальных взаимодействий. Люди используют различные невербальные сигналы, чтобы сигнализировать о своем психическом состоянии другим. И другие превосходно улавливают такие сигналы. Согласно исследованиям нейробиологов здесь важно, что человек способен поставить себя на место другого и почувствовать то, что другой чувствует. Такой тест, как правило, не проходят маленькие дети, пациенты с аутистическим расстройством и животные.
Многие специалисты считают, что компьютер никогда не пройдет такое испытание — он ведь лишен сочувствия.
Исследовательская группа протестировала несколько LLM, чтобы увидеть, насколько хорошо они пройдут тесты на теорию разума по сравнению с группой людей, проходящих те же тесты.
Исследователи проанализировали данные 1907 добровольцев, которые прошли стандартные тесты теории разума, и сравнили их результаты с результатами больших лингвистических моделей, в том числе Llama 2-70b и GPT-4.
Обе группы ответили на пять типов вопросов, каждый из которых предназначен для оценки таких моментов, как случайная ошибка, ирония или правдивость утверждения. Каждого также попросили ответить на вопросы о «ложных убеждениях» (к ним относятся, например, разные конспирологические теории — «нас всех зомбируют», «нами всеми управляет мировая закулиса» и т.д.).
Исследователи обнаружили, что LLM справлялись с вопросами как правило не хуже чем люди, а иногда и лучше. Самые лучшие результаты по всем типам вопросов показал GPT-4, Llama-2 были в среднем слабее, чем у людей.
По словам исследователей, эксперимент показывает, что LLM в настоящее время способны выполнять теоретические тесты теории разума с результатами сравнимыми с человеком, хотя ученые и не утверждают, что LLM столь же умны как люди или обладают той же степенью сочувствия.