Компании начинают продавать данные пользователей для обучения нейросетей: что будет дальше
ИИ-разработчики получат данные по меньшей мере за последние 10 лет работы сервисов. Предполагается, что личные сообщения и медиа, отправленные пользователями в приватных переписках, в дампы включены не будут.
Издание 404 media отмечает, что инженеры уже на начальном этапе столкнулись со сложностями в компиляции дампов данных — в них по ошибке были включены публикации в закрытых блогах, защищенный авторским правом контент, сообщения в удаленных или приостановленных блогах и др.
Это показывает, что для монетизации своего контента компаниям недостаточно просто иметь в своем распоряжении массивы данных. Гораздо более сложной задачей оказывается сортировка контента и исключение из дампов защищенной или приватной информации.
Тем не менее, инициатива Tumblr и WordPress (а в прошлом Shutterstock и Reddit), заключающих контракты с ИИ-разработчиками, указывает нас то, что в будущем многие типы пользовательских данных в сети могут (и будут) использоваться для обучения нейронных сетей.
Вполне вероятно, что некоторые компании будут использовать данные без предварительного уведомления пользователей и фильтрации личной информации — можно не сомневаться, что на этой почве произойдет еще не один скандал.