Группа ученых из Georgia Tech и Антидиффамационной лиги (ADL) провела исследование по выявлению и блокировке агрессивных комментариев в сети, сосредоточившись на языковых моделях, обученных на материалах азиатских онлайн-сообществ. Выяснилось, что текущие алгоритмы плохо распознают провокационные высказывания против азиатов.
Согласно статье в журнале Tech Xplore, это может привести к реальным актам агрессии. Различие между ненавистническим языком и речью, подстрекающей к насилию, затрудняет точное выявление последней из-за сложных нюансов языка. Команда протестировала пять алгоритмов обработки естественного языка и обнаружила, что их точность в распознавании языка ненависти составила 0,89. А для выявления провокационных высказываний показатель оказался лишь 0,69, что указывает на явный дисбаланс.
Ученые подчеркивают необходимость в разработке более эффективных инструментов для выявления актов насилия в сети, поскольку ложные сведения и разжигание ненависти усиливают напряженность и могут приводить к агрессивным действиям в реальной жизни. Их работа может помочь законодателям и разработчикам интернет-сервисов принимать более обоснованные решения.