ИИ станет цветным

Через модели предварительного обучения зрение-язык (VLP) можно легко связывать естественный язык с изображениями, облегчая широкий спектр кросс-модальных задач. Редакция «Pro город будущего» изучила научную работу китайских ученых о донастройки моделей VLP.

Большинство моделей VLP работают на основе цели смоделировать язык на через цвет. Основное открытие ученых заключается в том, что добавление цветовых соответствующих маркеров как в изображение, так и в текст, позволяет переформулировать визуальный посыл в проблему заполнения пропусков. Это максимально смягчает разрыв между предварительным обучением и донастройкой.

Для связывания языка с изображениями, модель состоит из двух компонентов: визуального подпромпта, который помечает области изображения цветными блоками, и текстового подпромпта, который помещает запросный текст в шаблон запроса на основе цвета.