Почему в машинном обучении используют «синтетические» данные

Обсуждаем мнения ИТ-сообщества и экспертов индустрии. Также рассмотрим пару проектов, в рамках которых разрабатывают инструменты для генерации «искусственных» данных. Один из них представили выходцы из Агентства национальной безопасности США и Google.

n9sbcc1dah6e69lk-srilnsgjoq.jpeg
Фото — Franki Chamaki — Unsplash

Проблема МО


Некоторым алгоритмам МО для работы требуются структурированные данные. Например, для решения задач машинного зрения их предоставляет проект ImageNet — в его БД более 14 млн изображений, разбитых на 22 тыс. категорий. Работа с таким масштабном набором приносит свои плоды. Использующие его алгоритмы ошибаются при определении объекта на фотографиях всего в 3,75% случаев. Для сравнения — у человека этот показатель превышает 5%.

Но сформировать датасеты подобные ImageNet для каждой задачи невозможно. Хотя бы потому что записи в них маркируются (или проверяются) вручную. При этом реальные данные — например, банковские или медицинские — могут быть закрыты и недоступны для всех разработчиков и дата-сайентистов. Но даже если такие данные есть, перед обработкой их необходимо анонимизировать.

С решением этих трудностей помогают синтетические данные. Они искусственные и сгенерированы компьютером, но выглядят аналогично реальным.

Кто работает в этой сфере


Проектами в этой области занимается множество университетов, ИТ-компаний и стартапов. Например, компания Gretel пишет программное обеспечение, формирующее искусственный свод данных на базе реального датасета. Фирму основала группа выходцев из Google, Amazon и Агентства национальной безопасности США (NSA).

В первую очередь их платформа анализирует имеющуюся информацию. В качестве примера инженеры использовали данные о поездках на электросамокатах Uber. Gretel распределяет их по категориям и расставляет метки, а затем анонимизирует с помощью методов дифференциальной приватности. На выходе получается «полностью искусственный датасет». Код своего решения разработчики выложили на GitHub.

Аналогичный проект реализовали в Иллинойсском университете в Урбане-Шампейне. Инженеры написали Python-библиотеку, с помощью которой можно сгенерировать синтетические данные для структурированных форматов CSV, TSV и частично структурированных JSON, Parquet и Avro. В первом случае специалисты использовали генеративно-состязательные сети, а во втором — рекуррентные нейросети.

Насколько эффективны синтетические данные


Они дают возможность дата-сайентистам и разработчикам обучать модели для проектов в тех областях, где пока еще нет big data. По словам Алекса Уотсона (Alex Watson), одного из основателей Gretel, во многих случаях достаточно значений, которые просто выглядят как реальные пользовательские.

По оценкам Gartner, к 2022 году 40% моделей МО будут натренированы на синтетических наборах данных.


Глава компании Haze, занимающейся разработкой систем ИИ, связал распространение технологии с её «гибкостью». Искусственную информацию проще дополнять и модифицировать с целью повышения эффективности обучаемой модели.

Также существует ряд задач, связанных с компьютерным зрением, где трудно использовать что-то, кроме синтетического датасета — например, в робототехнике. При проектировании промышленных роботов и беспилотных автомобилей используют обучение с подкреплением (reinforcement learning). В этом случае система искусственного интеллекта обучается, напрямую взаимодействуя с некоторой средой. В зависимости от отклика этой среды, робот корректирует свои действия.

Но беспилотник не может выехать на улицу и методом проб и ошибок определить, что «давить» пешеходов нельзя. Поэтому инженеры прибегают к синтетическим данным — они симулируют окружение в виртуальном пространстве. Например, решение для таких экспериментов предлагает Nvidia. Также проводились исследования по обучению машин при помощи движка игры Grand Theft Auto V.

kohlwhnbwmmxjzftidfjomzbft0.jpeg
Фото — Andrea Ang — Unsplash

Несмотря на все преимущества искусственных данных, у них есть свои недостатки. Они считаются менее точными — даже при условии генерации на реальных данных — и могут привести к получению моделей, генерирующих правдоподобные, но невоспроизводимые в реальном мире результаты. Однако один из резидентов Hacker News в тематическом треде отмечает, что это не такая уж большая проблема. Искусственные данные можно использовать для проверки алгоритмов интеллектуальной системы.

Другой пользователь Hacker News говорит, что подобные технологии усложняют процесс обучения моделей и увеличивают стоимость разработки. Его слова подтвердил специалист из Университета штата Иллинойс — разница может достигать 50%.

В любом случае синтетические датасеты нельзя считать «серебряной пулей». Это — лишь инструмент, способный помочь с решением определенного спектра задач. Но вполне возможно, что со временем этот спектр будет быстро расширяться.

О чем мы пишем в нашем корпоративном блоге:

nh3bvginmatsrsxcu6loffpn5yc.pngКомпьютер, который отказывается умирать
nh3bvginmatsrsxcu6loffpn5yc.png«Замести следы и уйти на выходные»: как удалить себя из большинства популярных сервисов
nh3bvginmatsrsxcu6loffpn5yc.pngКакие инструменты помогут соответствовать GDPR
nh3bvginmatsrsxcu6loffpn5yc.png«Почти анархия»: краткая история Fidonet — проекта, которому «нет дела» до победы над интернетом

© Habrahabr.ru