Компании начинают продавать данные пользователей для обучения нейросетей: что будет дальше28.02.2024 17:15

ИИ-разработчики получат данные по меньшей мере за последние 10 лет работы сервисов. Предполагается, что личные сообщения и медиа, отправленные пользователями в приватных переписках, в дампы включены не будут.

Издание 404 media отмечает, что инженеры уже на начальном этапе столкнулись со сложностями в компиляции дампов данных — в них по ошибке были включены публикации в закрытых блогах, защищенный авторским правом контент, сообщения в удаленных или приостановленных блогах и др.

Некоторые пользователи довольно остро отреагировали на инициативу Tumblr и полностью удалили свой контент с платформыИсточник: Tumblr

Это показывает, что для монетизации своего контента компаниям недостаточно просто иметь в своем распоряжении массивы данных. Гораздо более сложной задачей оказывается сортировка контента и исключение из дампов защищенной или приватной информации.

Тем не менее, инициатива Tumblr и WordPress (а в прошлом Shutterstock и Reddit), заключающих контракты с ИИ-разработчиками, указывает нас то, что в будущем многие типы пользовательских данных в сети могут (и будут) использоваться для обучения нейронных сетей.

Вполне вероятно, что некоторые компании будут использовать данные без предварительного уведомления пользователей и фильтрации личной информации — можно не сомневаться, что на этой почве произойдет еще не один скандал.