Ученые из Санкт-Петербурга представили систему, способную распознавать ливвиковское наречие карельского языка. Данная технология позволит переводить устную речь в режиме реального времени и войдет в состав онлайн-переводчика с искусственным интеллектом (ИИ).
Исследователи сообщают, что около 30 тысяч человек говорят на карельском языке, однако только лишь 5-7 тысяч из них активно пользуются им в повседневной жизни. Устройство от отечественных разработчиков обладает не только функцией распознавание речи, но и инструментом для изучения языков коренных народов России.
Особенностью системы стала ее адаптация к реальным условиям, где карельский часто смешивается с русским. Ученые специально обучали алгоритм корректно обрабатывать такие гибридные формы речи. Это выгодно отличает его от существующих многоязычных моделей, которые плохо справляются с карельским языком.
Для обучения системы использовались данные из открытых корпусов вепсского и карельского языков, а также записи живой речи, обработанные носителями, сообщают «Аргументы недели».
В первое время система будет доступна в виде компьютерного приложения с функцией распознавания речи через микрофон, но в будущем разработчики планируют адаптировать ее для смартфонов. Данное решение позволит расширить аудиторию пользователей, включив не только исследователей, но и для всех заинтересованных пользователей. В дальнейшем технологию можно будет применять для автоматической расшифровки речи, машинного перевода, анализа медиа и создания ассистивных решений.