Исследователи Имперского университета предложили уникальный метод для выявления того, как данные используются в процессе обучения ИИ. Они надеются, что их разработка приведет к большей прозрачности и открытости в сфере разработки генеративных ИИ, а также поможет авторам лучше контролировать использование их текстов.
Новая разработка подробно описана в работе, размещенной на платформе arXiv. Так, автор контента может встроить метку авторских прав в нескольких своих документах, например, в статьях. Если разработчик LLM использует эти данные для обучения модели, автор сможет наглядно доказать использование своих данных, обратив внимание на особенности в результатах работы модели.
Этот подход особенно актуален для интернет-издателей, которые могут скрыть информацию о нарушении авторских прав в тексте новости так, чтобы она оставалась незаметной для читателя, но при этом была бы легко уловима для сбора данных.