Топ-100 ИИ оказался обладателем проблем с «воображением» - Pro город будущего

ИИ оказался обладателем проблем с «воображением»

Исследователи из США и Канады изучили, насколько эффективно самые популярные большие языковые модели (LLM) с функцией визуального восприятия (VLM) обрабатывают визуальную информацию. Хотя возможность обработки визуальных данных стала доступна для LLM сравнительно недавно, ученые обнаружили, что эта функция все еще далека от совершенства. По мнению исследователей, LLM можно сравнить с системой «камера-мозг».

Согласно статье, опубликованной на портале Tech Xplore, система распознавания изображений у современных моделей работает хорошо, однако способность обрабатывать информацию пока отстает.

Например, LLM легко распознают изображение Тадж-Махала, но могут испытывать затруднения с ответами на вопросы о деталях, таких как количество детей, держащихся за руки. Языковые модели не умеют считать, их обучают распознавать образы. Поэтому, если модели заранее не показать изображение с определенным количеством детей, она может не справиться с задачей.

Российские ученые разработали базу для обучения ИИ определять минералы

Российские ученые обучили нейросеть оценивать состояние почвы из спутниковых фото

Усовершенствованные модели ИИ могут ловить галлюцинации