Команда Anthropic сделала важное открытие в понимании работы ИИ-моделей. Они изучили нейронные паттерны большой языковой модели Claude Sonnet и сопоставили их с человеческими понятиями. В результате были созданы «концептуальные карты», показывающие взаимосвязь идей в искусственном интеллекте, включая вредные аспекты, такие как расизм и обман.
Как сообщает New Atlas, IT-специалисты даже научились подавлять или усиливать определенные концепции, контролируя поведение ИИ. В то же время OpenAI обнаружила 16 миллионов «мысленных» шаблонов в GPT-4. Специалисты признают, что полное понимание природы искусственного интеллекта пока невозможно.