AI-тренер, нейровоспитатель, ассесор, крауд и разметчик — кто все эти люди и в чем разница?27.04.2024 16:15

Многие компании в последнее время ввели должность «ИИ-тренера» (AI-тренера), при этом просто разметчики/ассесоры никуда не делись. Что это — просто красивая обертка нейминга над тем же самыми или что-то концептуально новое?

Давайте попробуем в этом разобраться и однозначно ответить на вопрос о различиях.

AI-тренер

В качестве легкого вступления стоит рассказать, что вообще все эти люди делают в целом.

Для технологий нужны данные, но не просто данные, а хорошо и правильно подготовленные. Если у вас уже есть полный набор данных и надо в них просто навести порядок, то, условно, вам будет достаточно несколько хороших дата-инженеров/аналитиков.

Но если у вас данных нет (их надо добыть/собрать/сгенерить/отвалидировать), либо этим данным нужно присвоить некие характеристики согласно ТЗ, то без людей не обойтись. Почти. Для таких данных потребуется разметка — то самое присвоение характеристик данным.

Хорошая разметка очень важна, ближайшая аналогия: мотор (технология и алгоритмы) и топливо (разметка). Если заливать плохое топливо даже в самый лучший в мире мотор, то и производительность будет похуже и на дистанции очень скоро потребуется капремонт всей технологии. Поэтому, хорошая разметка это прям важно, хотя и заниматься качественно ей многие компании не очень любят.

Разметка может быть самой различной и над любыми типами данных: выделение объектов на видео, транскрибацией аудио в текст, полевыми заданиями, — мы у себя на платформе чего только не повидали. (как вам «Намычать гимн других стран»?)

Собственно, все эти люди занимаются глобально одним и тем же — разметкой. Но вот дальше очень много нюансиков.

В чем же различие всех этих слов (и явлений за ними) между собой?

Их отличии — в глубине и в экспертности.

AI-тренер (ИИ-тренер)

Само появление термина «AI-тренер» практически «совпало» с бумом больших языковых моделей (LLM) — и это не случайность. Появление очень сложных технологий типа мультимодальных LLM очень сильно задирает планку в требуемой разметке. Если мы готовим данные для таких фундаментальных технологий или обертки над ними, то мы уже не можем поручить ее неподготовленному человеку — нам нужно, чтобы человек хотя бы базово понимал внутренности технологии, а так же хорошо понимал поставленную ему задачу.

AI-тренер воспитатель технологий

Чтобы получить хороший результат, человека нужно адаптировать и подготовить к заданию — иногда инструкция для разметки может занимать 40 листов А4, где описаны и основы, и что делать с граничными (corner-case) случаями и все остальное необходимое. Умение понимать и следовать подобным инструкциям само по себе накладывает определенную планку требований к образованию и квалификации человека.

А задачи бывают иногда совсем сложные, например, работа с «чувствительными» темами, такими как политика, религия, суицид, этичность поведения и так далее. Промахи в таких темах могут затрагивать миллионы людей и грозить огромными репутационными рисками, поэтому такая разметка — по настоящему сложная и интеллектуальная, и именно поэтому под нее и был изобретен термин «ИИ-тренер».

Если вы встретите термин «нейровоспитатель», то это примерно сюда же, просто шутейка или сленг, просто потому что процесс «воспитания» реакций технологий на что-либо схож с воспитанием детей/животных на начальных этапах их жизни.

Разметчик, ассесор и лейблер

Фактически, все эти слова являются синонимами и обозначают одно и то же, но просто появились из разной предметной области.

Котики-разметчики

Разметчик — просто потому что занимается разметкой. «Лейблер» — то же самое, просто англицизм — в английском языке часто процесс разметки называется «label/labeling», дословно — навешивание ярлыков на что-то. То есть, просто присвоение характеристик вашим данным.

С ассесором все похитрее, давайте посмотрим официальное определение: «Асессор — в Древнем Риме и средневековой Европе должностное лицо, облечённое судебной властью». Фактически, человек, который выносит какое-то решение.

Полагаю, термин придуман и внедрен одной российской компанией, чьи ассесоры сначала выносили решение по поводу результатов чего-то (например, результатов поиска), а затем термин просто расширился до любой разметки данных и разметки вообще.

У таких разметчиков простор для задач (и терминологии, соответственно) может быть огромным — от совсем низкоквалифицированной работы до экспертной, от узкой специализации до максимально широкого круга вопросов.

Низкоквалицифированная работа, например, это механически обводить кисточкой понятные объекты — примерно так готовили данные для модели, которая сильно изменила разметку компьютерного зрения, я про это писал в своей статье:

Приключение SAM в Японии или как компьютерное зрение видит гейшу

Модель вышла клевой, поэтому без подобной низкоквалифицированной разметки, увы, никак, но после выхода таких моделей ее будет становиться меньше.

Бывает узкая специализация — это когда человек занимается широким классом задач, но только одной предметной области, которая не требует сверхподготовки, например, разметкой дорожного движения или результатов алгоритма рекомендаций.

Еще один смежный пример — люди, знающие другие языки (самые разные, от больших международных до конкретных диалектов региона или малых языков), такие задачи то же часто решаются.

Но часто и сверхподготовка требуется.

Эксперты и разметка — все сложно

Зачастую бывает так, что нам нужна именно узкая экспертность в чем-то, если наша технология это затрагивает. Например, если мы пытаемся научить нашу технологию определению оригинальности чего-то (например, живописи 17 века), то нам потребуется эксперт в области культуры и в идеале — той самой живописи 17 века.

Кот-эксперт

Ему не требуется понимать глубину технологии, достаточно простых инструкций, но от него потребуются именно экспертные знания в данной предметной области. Здесь без профильной вышки и многих лет работы в этой индустрии — никак.

Еще один пример — медицина. Чтобы делать разметку медицинских снимков (например) нам нужны врачи, хорошо понимающие предметную область. Невозможно дать такую задачу человеку даже с хорошей подготовкой, но не в данной предметной области.

Фактически, подобные эксперты являются скорее просто экспертными разметчиками, хотя тут многое зависит от постановки задания.

Крауд из разметчиков

Крауд — англицизм, дословно «толпа». Применительно к разметке — это и есть толпа разметчиков, то есть, людей, желающие заниматься разметкой, но на ней не специализирующейся.

Крауд-разметчиков выглядит примерно так

Примерно как фриланс, как некая подработка. Крауда очень боятсяツ технари, которым нужна хорошая разметка, так как это самая неподготовленная для создания разметки публика. У меня в работе статья о том, как правильно готовить крауд, чтобы было не стыдно, но она будет позже.

В целом, стереотипы о том, что крауд это плохо — не совсем верны. Крауд это очень плохо, если ему скинуть техническое ТЗ и не делать поправку на то, что там много людей, совершенно ничего не знающих про внутрянку технологий и ИИ. Но крауд, с которым вы работаете правильно — обучаете, разъясняете, контролируете, б̶ь̶е̶т̶е̶ ̶п̶а̶л̶к̶о̶й̶ ̶п̶о̶ ̶г̶о̶р̶б̶у̶ ̶к̶о̶г̶д̶а̶ ̶н̶а̶д̶о̶ и валидируете результаты (можно ими же) — это хороший способ делать разметку.

В качестве выводов

Все эти люди занимаются разметкой, но разметка у них сильно разная. Терминами часто злоупотребляют, часто применяют по незнанию, но если попытаться совсем грубо ответить на вопрос в заголовке, то ответ будет выгделять так:

AI-тренер — «воспитывает» технологии правильно реагировать на сложные и неоднозначные ситуации или учит очень сложным вещам.
Разметчик/ассесор/эксперт — делают самый разный спектр разметки, от низкоквалифицированной до сильно экспертной.
Крауд — это общее обозначение людей, вообще готовых делать разметку, как фриланс.

Надеюсь, вам было полезно.

Хороших выходных!

Другие мои статьи про разметку:

Приключение SAM в Японии или как компьютерное зрение видит гейшу

Заменят ли LLM людей в разметке данных для AI?