Команда ученых из MIT и MIT-IBM Watson AI Lab разработала инновационный метод настройки, специально предназначенный для работы с крупными языковыми моделями. Этот метод, получивший название Thermometer, предполагает использование дополнительной компактной модели. Та, в свою очередь, взаимодействует с основной языковой моделью, обеспечивая ее точную настройку.
Thermometer демонстрирует большую эффективность по сравнению с альтернативными методами, снижая потребность в вычислительных ресурсах. При этом не ухудшает точность исходной модели, улучшая ее способность к точному решению новых задач. Исследование опубликовано в журнале Tech Xplore.
Данный подход к калибровке языковых моделей помогает лучше выявлять моменты, когда система может избыточно самоуверенно выдавать ошибочные предсказания. Это позволяет избежать использования модели в контекстах, где ее эффективность может быть сомнительной. В будущем ученые намерены расширить функционал Thermometer, применяя его к более сложным задачам обработки текста и адаптируя его для интеграции с еще более объемными языковыми системами.