Топ-100 Модель OpenAI o3 прошла тест на логическое мышление, но это еще не AGI - Pro город будущего

Модель OpenAI o3 прошла тест на логическое мышление, но это еще не AGI

Последняя разработка OpenAI совершила значительный скачок в производительности, но пока не демонстрирует того, что можно назвать интеллектом человеческого уровня.

Новая модель искусственного интеллекта o3 от OpenAI показала результат в престижном тесте на логическое мышление ARC Challenge, что заставило некоторых энтузиастов предположить, что o3 достигла искусственного общего интеллекта (AGI). Хотя организаторы ARC Challenge назвали достижение o3 важной вехой, они также отметили, что модель не выиграла главный приз конкурса и что это лишь один шаг на пути к AGI — гипотетическому будущему искусственного интеллекта с интеллектом, подобным человеческому.

Модель o3 — это новейшая разработка в линейке моделей искусственного интеллекта, которые следуют за большими языковыми моделями, лежащими в основе ChatGPT.

«Это удивительное и важное скачкообразное увеличение возможностей искусственного интеллекта, демонстрирующее новые способности к адаптации задач, которых раньше не было в моделях семейства GPT», — сказал инженер из Google и главный создатель ARC Challenge Франсуа Шолле в своем блоге.

Что на самом деле делала модель o3 от OpenAI?

В 2019 году Шолле разработал конкурс Abstraction and Reasoning Corpus (ARC), чтобы проверить, насколько хорошо искусственный интеллект может находить правильные закономерности, связывающие пары цветных сеток. Такие визуальные головоломки предназначены для того, чтобы продемонстрировать форму общего интеллекта с базовыми способностями к рассуждению. Однако, если предоставить достаточно вычислительной мощности, даже программа, не обладающая способностью к рассуждению, сможет решить головоломку методом перебора. Чтобы предотвратить это, конкурс также требует, чтобы официальные результаты соответствовали определённым ограничениям по вычислительной мощности.

Недавно анонсированная модель o3 от OpenAI, выпуск которой запланирован на начало 2025 года, набрала 75,7% баллов в «полузакрытом» тесте ARC Challenge, который используется для ранжирования участников в публичной таблице лидеров. Стоимость вычислений для достижения этого результата составила примерно 20 долларов за каждое задание с визуальной головоломкой, что соответствует установленному для конкурса лимиту в 10 тысяч долларов. Однако более сложный «закрытый» тест, который используется для определения победителей, имеет еще более жесткие ограничения по вычислительной мощности, эквивалентные затратам всего 10 центов на каждую задачу, которых OpenAI не достиг.

Модель o3 также набрала неофициальное количество баллов 87,5%, применив примерно в 172 раза больше вычислительной мощности, чем при официальном подсчёте баллов. Для сравнения, типичный результат человека составляет 84%, а 85% баллов достаточно, чтобы выиграть главный приз ARC Challenge в размере 600 000 долларов — при условии, что модель сможет уложиться в требуемые лимиты по затратам на вычисления.

ИИ сделал прорыв в анализе отпечатков пальцев

Ученые обучили ИИ исследовать турбулентность

В УК РФ могут появиться новые пункты за преступления с использованием дипфейков