Последние версии искусственного интеллекта, разработанные компаниями OpenAI, Google, Meta и другими, совершили значительный прорыв благодаря обучению на больших объемах текстовых данных. Однако базы знаний, накопленных человечеством за десятилетия, постепенно исчерпываются. Миллиарды слов и веб-страниц практически использованы, что затрудняет дальнейшее развитие ИИ.
Как сообщает Associated Press, проблема заключается в том, что разработчики не имеют доступа ко всей информации, включая данные из веб-архивов, так как авторы могут предъявить им претензии, как это произошло с издателями газеты New York Times в связи с нарушением авторских прав. Исследователи из аналитического центра Epoch AI прогнозируют, что к 2026 году языковые модели ChatGPT и Llama 3 могут столкнуться с нехваткой данных для обучения.