От африканских саванн до индийских мегаполисов: как мы собрали уникальный датасет для клиента

Казалось бы, стандартная задача: через крауд-платформу собрать фотографии и видео, где люди произносят цифры — легкий проект, который можно закрыть за пару недель.
Но все это вылилось в десятки часов на чистку «мусорных» данных, видео, снятые в полной темноте, случайные TikTok-ролики вместо заданий и ситуации, где инструкции, кажется, читают единицы.
Как мы превратили хаос в структурированный датасет? Какие решения помогли преодолеть барьеры (как культурные, так и технические)? Расскажем в этой статье.
Задача: простой бриф с непростыми нюансами
Нашему заказчику, работающему в сфере исследований в области обработки данных, потребовались видео- и фотоматериалы с участием представителей различных этнических групп. Казалось бы, задача довольно проста: записать, как люди произносят последовательность цифр, и сделать несколько фотографий. Однако реальность быстро показала, что этот проект требует гораздо более сложного подхода.
Объем работ был внушительным:
200 наборов данных от участников из Африки,
100 наборов данных от участников из Индии.
Каждый участник должен был предоставить четыре уникальных видеоролика и две фотографии, а каждое видео требовало уникальной последовательности цифр. С самого начала стало понятно, что качественное выполнение этой задачи потребует детальной проработки всех этапов — от инструкций до финальной проверки данных.

Первые трудности: культурные барьеры, технические ограничения и человеческий фактор
Мы запустили кампанию на крупной крауд-платформе, установили вознаграждение и прописали инструкции. Однако вскоре обнаружились первые серьезные проблемы:
Низкое качество данных — значительная часть загруженных видео и фото не соответствовала требованиям. Встречались ролики, записанные в темноте, видео, отправленные через TikTok и контент, вообще не связанный с заданием.
Сложность восприятия инструкций — изначально мы не учли разный уровень образования и культурные особенности, это привело к частым ошибкам: некоторые не понимали, какие последовательности цифр нужно произносить, другие записывали себя в темных помещениях или с низким качеством звука.
Технические ограничения — требования к использованию разных устройств (веб-камеры и телефона) вызвали сложности. Некоторые вообще не имели необходимого оборудования и заваливали нас вопросами.
Оптимизация процесса: адаптация инструкций, улучшение коммуникации и мотивации
После первых результатов стало ясно, что без серьезных изменений проект окажется под угрозой. Тогда мы приняли ряд успешных решений:
Создание наглядных видеопримеров
Участникам было сложно понять требования только по тексту, поэтому мы записали демонстрационные видео с правильным выполнением задания: правильный ракурс, освещение, звук и произношение.
Разработка пошаговых инструкций
Мы переработали инструкции, добавив конкретные пояснения по каждому этапу.
Особое внимание уделили различиям между веб-камерой и телефоном: объяснили, как записывать видео с разных устройств.
Локализация и переводы
Инструкции перевели на языки, наиболее распространенные среди целевой аудитории. Это существенно снизило количество ошибок.
Автоматизация генерации последовательности
Чтобы избежать дублирования, мы внедрили систему, автоматически создающую уникальные последовательности для каждого участника. Это упростило контроль качества данных.
Повышение вознаграждения
Чтобы привлечь более мотивированных участников, мы увеличили размер выплаты за успешное выполнение задания. Это существенно снизило процент работ низкого качества.
Организация системы обратной связи
Мы создали канал поддержки, где участники могли задавать вопросы и быстро получать помощь. Это значительно сократило количество ошибок и повторных загрузок.

Контроль качества: фильтрация, валидация и проверка уникальности
Оптимизация процесса дала заметные результаты, но оставался еще один важный этап — валидация данных. Мы внедрили многоуровневую систему проверки:
Автоматическая проверка — первичная фильтрация на основе заранее заданных параметров (качество изображения, длина видео, формат файлов).
Ручная проверка — команда специалистов просматривала и анализировала материалы, отсекая несоответствующие данные.
Проверка уникальности — каждая последовательность цифр сравнивалась с базой данных, чтобы убедиться, что участники не загружают повторяющийся контент.
Итог: успешная кампания и важные инсайты
Со временем нам удалось улучшить качество данных и завершить проект вовремя. Количество «мусорных» файлов сократилось, заказчик остался очень доволен результатом.
Этот проект стал ценным опытом, показавшим, что даже простая на первый взгляд задача может требовать сложных решений. Мы не просто собрали нужные данные, но и выстроили процесс, который теперь можем масштабировать для других задач.
А какие нестандартные методы контроля качества или мотивации использовали вы в своих проектах? Делитесь своим опытом!