Согласно исследованию, опубликованному в журнале PNAS Nexus, большие языковые модели (LLM) допускают ошибки, подобные человеческим, в абстрактных задачах на рассуждения. Группа ученых провела тестирование LLM и людей на трех типах задач: генерация естественного языка, оценка логической корректности силлогизмов и задача Уэйсона.
Было обнаружено, что и LLM, и люди склонны ошибочно принимать неправильные аргументы за верные, если их содержание кажется логически обоснованным. Стоит отметить, что эффективность LLM и людей повышается при замене абстрактных правил на социально значимые, такие как возраст людей и употребление алкоголя.