Техасское управление образования (TEA) внедряет автоматическую систему проверки экзаменов на основе искусственного интеллекта.
Руководство TEA предполагает, что внедрение данной системы позволит сэкономить от 15 до 20 млн долларов, за счет сокращения числа проверяющих. В 2024 году агентство планирует сократить количество нанятых специалистов с 6 тысяч до 2 тысяч.
По данным издания The Verge, экзамены STAAR проводятся для оценки знаний учащихся с третьего по восьмой класс. В 2023 году создатели добавили открытые вопросы к заданиям с вариантами ответов.
На проверку и оценку ответов учащихся уходит огромное количество времени. Поэтому TEA решили внедрить ИИ в проверку. Предварительно специалисты внесли 3 тысячи ответов на определенные вопросы.
Четверть результатов тестов будет повторно проверяться вручную. Особое внимание уделят ответам, которые система не смогла оценить.
Специалисты полагают, что такими ответами станут те, которые содержат сленг и выражения на других языках.
Системы оценки экзаменационных ответов на основе искусственного интеллекта используются в США уже не первый год. За 2019 год такие инструменты применялись как минимум в 21 штате.
В России же существует компьютерная система оценивания. Ежегодно российские школьники сдают ОГЭ — по окончанию 9 класса и ЕГЭ — по окончанию 11 класса.
У этих экзаменов одинаковая система проверки: сначала компьютер, далее преподаватели-эксперты.
Согласно данным на портале ФИПИ, бланки первой части экзамена обрабатываются с помощью компьютера. Специалисты центра обработки информации сканируют работы, после чего программа сравнивает ответы ученика с правильными ответами системы.
Чтобы избежать ошибок при автоматической проверке, выпускники заполняют бланки только черной ручкой.
Для проверки заданий на втором бланке с развернутым ответом комиссия, состоящая из учителей и преподавателей, проводит двойную независимую проверку каждой работы.
В случае значительного расхождения оценок двух экспертов, работа направляется на дополнительную проверку третьему специалисту. Этот эксперт анализирует только те задания, оценка которых вызвала расхождение мнений.

