Как пользоваться краудсорсингом? Практический туториал от Яндекса
Мы опубликовали первый русскоязычный туториал по краудсорсингу:
Это серия видео о том, как с помощью передачи простых заданий большому числу исполнителей собрать и разметить данные. Исполнителям можно поручить разные задания: найти что угодно в интернете, оценить дизайн, проверить или создать контент, поучаствовать в опросе, добраться до точки на карте и сфотографировать там что-нибудь. Тысячи людей будут одновременно выполнять перечисленные действия, формируя необходимый набор данных. Выпуск туториала — повод вновь поговорить о том, как краудсорсинг радикально меняет процессы в компаниях.
Мудрость толпы
Первая версия краудсорсинговой платформы Яндекс.Толока вышла в 2014 году. Изначально мы строили платформу для нужд Яндекс.Поиска (хотя идея приносить пользу другим сервисам и внешним заказчикам возникла сразу же). Алгоритмы учились ранжировать результаты Поиска по степени полезности, обучаясь на данных, которые размечались вручную: люди оценивали, релевантен ли найденный ответ поисковому запросу. Тем самым тысячи толокеров вносили и по-прежнему вносят вклад в качество Поиска.
Применение краудсорсинга в Поиске стало развитием идей, которые использовались и ранее, просто в менее автоматическом режиме. А вот дальнейшие задачи для исполнителей, придуманные командами Яндекса, уже полностью опирались на возможности Толоки. Сегодня десятки тысяч толокеров регулярно проверяют информацию об организациях на Яндекс.Картах, улучшают рекомендации Яндекс.Музыки и поиск похожих изображений в Картинках. Беспилотный автомобиль учится определять разные типы объектов вокруг, ориентируясь на фотографии, размеченные исполнителями вручную. Целые блоки важных сервисов и отдельные сайты и приложения работают благодаря Толоке.
В 2016 году заказчики из-за пределов компании тоже получили возможность создавать задания в Толоке. Rambler Group поручил исполнителям модерацию на всех своих ресурсах, интернет-магазину Ozon и сервису «Авито» толокеры помогают улучшать поиск по товарам, стартап Dbrain распознаёт с помощью платформы текстовые документы (это ключевая часть продукта Dbrain). Суммарно над проектами Яндекса и других компаний ежедневно трудятся 30 тысяч исполнителей — они выполняют более 12 миллионов заданий в день. Со временем Толока превратилась из инфраструктуры для Поиска сначала в инфраструктуру для всего Яндекса, а затем — в инфраструктурную платформу для развития машинного обучения во всём русскоязычном интернете.
Микроменеджмент
Умение заказчика превращать крупную задачу в набор очень мелких — главный фактором его успеха на платформе. Экономика Толоки строится на простоте и дешевизне каждого отдельного задания: инструкции должны быть сразу же понятны исполнителю, он должен потратить минимум времени (в идеальном случае — пару секунд) на выполнение и поскорее перейти к следующему заданию: чем больше он сделает, тем больше будет его вознаграждение.
Ответ, данный так быстро, может быть неточным, но это далеко не всегда повод усложнять условие. Пусть один и тот же объект разметят для вас несколько исполнителей: кто-то из них ошибётся, но у системы будет несколько альтернативных мнений, которыми можно оперировать для получения финального (уже наверняка корректного) ответа. Кроме того, полезно предлагать короткие вводные к заданиям, тестировать толокеров, выдавать им разные навыки по результатам тестов, подключать к заданиям только тех, кто обладает нужным навыком, выполнять контроль качества и т. п.
Именно о таких механиках и рассказывают участники нашей команды в туториале по краудсорсингу. В записи видео поучаствовали: руководитель отдела эффективности и развития Алексей Друца, руководитель группы анализа данных и исследований Евфросиния Зерминова и аналитик-исследователь Валентина Фёдорова. Чтобы разобраться в туториале, а затем придумать и реализовать свою систему задач, не нужны знания разработчика или аналитика. Главное — научиться формулировать инструкции и разбивать задания на всё более простые.
Боли инженеров
Стандартный рабочий процесс инженера по машинному обучению состоит из двух частей: подготовки данных и проверки разных ML-моделей. Первая часть считается гораздо более долгой и рутинной, потому что сложно собрать действительно ценный датасет сразу в том виде, который хорошо подходит для машинного обучения. Обычно в датасетах много аномалий, плохо размеченных фрагментов, ошибок и «шума». Всё это дополнительно усугубляется, если данные собирает сторонняя организация, которая хуже понимает нужды ML-инженеров либо просто не обладает средствами для улучшения ситуации. Качественные наборы данных — ценность в индустрии, «новая нефть в эпоху искусственного интеллекта», как говорит один из авторов туториала Алексей Друца. Компании не очень часто делятся датасетами, а те из них, которые использует академическое сообщество для сравнения моделей, редко подходят для реальных задач.
Методы краудсорсинга из туториала дают возможность инженерам и участникам их команд самим настраивать процесс сбора данных. Рутинная часть сокращается — можно быстрее перейти к проверке гипотез, тестированию библиотек для обучения и настройке моделей. Часть датасетов, собранных толокерами для Яндекса, доступна в открытом виде. Мы в команде Толоки поддерживаем исследования в области ML и продолжим публиковать уникальные наборы данных.
Опубликованный туториал — первое практическое руководство по краудсорсингу на русском языке. Оно основано на материалах вводного курса в краудсорсинг, прочитанного на ACM KDD 2019 — ведущей мировой конференции по анализу данных. Многие специалисты отрасли сегодня исследуют методы краудсорсинга — умение эффективно им управлять становится всё более ценным.