В исследовании, проведенном экспертами из Корнеллского университета, университетов Вашингтона и Ватерлоо и научной организации AI2, был изучен вопрос о том, как различные модели ИИ создают «иллюзии». Исследователи оценили модель GPT-4o по вопросам из права, медицины, истории и географии. Ни одна из моделей не продемонстрировала полной точности, и менее склонные к «иллюзиям» модели часто отказывались отвечать на потенциально неверные вопросы.
В тесте участвовали темы как культура и астрономия, а также несколько вопросов из популярного сайта «Википедия». Результаты показали, что модели ИИ не так часто страдают от галлюцинаций, как предполагалось, при этом GPT-4 немного опередил GPT-3.5. Модели OpenAI показали наиболее достоверные результаты. Исследование опубликовано в журнале Inc.Russia.
Однако некоторые эксперты утверждают, что стандарты оценки не соответствуют реальным целям, и проблема галлюцинаций останется актуальной в долгосрочной перспективе.