Хуже, чем заключенные: как в Китае студенты тренируют ИИ

7533800be044eead51eab7c584b87331.png

Аннотаторы данных — новая горячая профессия в IT. Несколько десятков тысяч человек работают так «на плантациях» в Венесуэле, в том числе обучая ИИ для пылесосов-румб. Недавно я рассказывал о том, как это происходит в Финляндии за счет труда заключенных. За разбор картинок и оценку текстов от ИИ им там платят порядка €1,50 в час. Но самая большая индустрия аннотаторов данных на самом деле находится в Китае. И они здесь придумали свое решение, уникальное именно для этой страны.

Небывалый бум искусственного интеллекта в Китае полагается на армию эксплуатируемых студентов-стажеров. Молодежь из профессионально-технических училищ, принадлежащая к низшей цифровой «касте» Китая, работает аннотаторами данных — за низкую зарплату и без перспектив. В основном ради профита руководителей своего техникума или училища и возможности продолжать там чему-то обучаться. А учителя выступают в роли офис-менеджеров, ставящих классу задачу, которую тот должен решать, и проверяющих эффективность труда студентов.

На последних курсах профучилищ китайских студентов сейчас заставляют работать стажерами в центрах аннотации данных. Особенно если они учатся на какой-либо специальности, связанной с компьютером (даже компьютерной графике). Это распространилось в последние годы, уже после ковида, и особенно часто встречается в провинциях вокруг Пекина — Шаньдунь, Сиань, Хэнань, атакже в центральных регионах страны. Сотни тысяч людей проводят по восемь часов в день, сидя в лаборатории техникума или в офисе, сортируя аудиофайлы, отмечая изображения детей на записях с камер наблюдения, выбирая правильный вариант текста и указывая деревья и пешеходов в видеороликах, используемых для разработки автоматических систем вождения.

3ec67c2179613027e8c1db8965b0f0a4.png4f2956921ed45e4647463c98dfd4232c.png

Эти студенты часто живут в общежитиях на 3–6 человек, предоставленных компанией. И зарабатывают от 1000 юаней в месяц (137 долларов США) — ровно достаточно, чтобы покрыть ежедневные расходы, учитывая оплаченное жилье. Самые опытные и быстрые, делающие больше 14000 аннотаций в день, получают до $250 в месяц. В любом случае это намного ниже средней зарплаты в Китае (9500 юаней, $1300) и даже меньше минимально допустимой зарплаты (2590 юаней, $350). Они могли бы получать куда больше, работая в колл-центре или за стойкой фастфуда. Но этим студентам хочется получить образование «в IT-отрасли», которое, как они считают, даст им путевку в хорошую жизнь. И они готовы терпеть.

Каста неприкасаемых

c71c31d6d90e57e5d4cf1e3b074d0bad.png

Читая новости и сообщения на форумах (слава гугл-транслейту!), понимаешь что, история тут одна и та же. Люди поступают на факультет информатики, думая, что научатся программировать и станут разработчиками. Но на самом деле попадают в конвейер. Первые курсы проходят более-менее стабильно. Люди, выросшие в селах, могут научиться управляться с компьютером, кликать мышкой, набирать слова на китайской клавиатуре. Бывают и более сложные классы, где учат математике и программированию.

Но для того, чтобы выпуститься, последние один-два курса студенты должны пройти «стажировку» в одной из крупных IT-компаний — Baidu, Alibaba, JD.com или одной из других. Там они действительно сидят за компьютером, работают и получают деньги. Всё, как мечталось! Только деньги не те, а на «работе» в основном решают задачи уровня третьего класса школы. Это отбирает почти всё свободное время, учеба дальше идет минимальная, уроки прекращаются почти полностью.

Контакта с реальными представителями компаний нет, как-то зарекомендовать себя им не представляется возможным. Качество работы проверяют те же учителя. По сути, ученикам предлагается выполнять рабский труд под угрозой отчисления. Отслужить на благо альма-матер. Высказывать что-либо против мало кто себе может позволить, учитывая, что несколько лет они уже отучились.

У профучилищ есть и другой рычаг давления. Если кто-то отказывается проходить стажировку, учителя требуют, чтобы её прошел весь класс, иначе их не допустят до выпуска.

2c1430a589f00de2416d2b20efc0c4e7.png

Так постепенно формируется новая низшая цифровая каста Китая — сотни тысяч аннотаторов данных, которые нужны для развития индустрии искусственного интеллекта в стране. Они маркируют огромные объемы необработанной информации. Помечают изображения автомобилей, проверяют видео на предмет содержания насилия, фильтруют аудио по ключевым словам. Их труд, зачастую недоплачиваемый и всеми игнорируемый, имеет решающее значение для разработки новых передовых приложений — от интеллектуальных чат-ботов и умных полицейских камер до самоуправляемых автомобилей.

Поставлены на поток

3e64dc8b62f9dd1fcfe01c528b589ebf.png

Уже несколько лет как китайские компании, занимающиеся маркировкой данных, установили партнерские отношения с профучилищами. Им очень выгодно нанимать малооплачиваемых стажеров для выполнения этой трудоемкой работы, а училища с радостью готовы предоставлять своих студентов, если получат за это щедрую компенсацию.

Такая работа, даже если она длится по 8 часов в день, не запрещена законом. Новые правила, опубликованные Министерством образования Китая в январе 2022 года, только требуют от работодателей платить стажерам минимальную заработную плату. Поэтому тех, кто трудится бесплатно, больше нет. Правила также запрещают школам брать комиссионные. Но вместо этого оплата попросту идет учителям.

Учитель читает лекцию на уроке по техобслуживанию транспортных средств, показывая дверь автомобиля.

Учитель читает лекцию на уроке по техобслуживанию транспортных средств, показывая дверь автомобиля.

В любом случае, похоже на то, что правительство Китая знает об этой проблеме и пытается ее как-то сгладить. Например, в тех же правилах от января прошлого года властизапрещают образовательным учреждениям заставлять учащихся выполнять «простую, повторяющуюся работу». Но пока что нет определения такой работы. Рассматривание разных изображений и ответы на разные текстовые вопросы — это всё-таки не полностью повторяющаяся работа, правда? Большинство образовательных учреждений предпочитают расценивать это так.

Дело в том, что это огромная индустрия. По оценке McKinsey, один только рынок беспилотного транспорта в Китае к 2030 году составит $500 млрд. Разработкой автономных автомобилей занимаются Didi, AutoX, WeRide и многие другие. И, конечно, один из мировых лидеров, Baidu со своей беспилотной системой Apollo, которой пользуются в том числе Ford, Chevrolet, Honda, Volkswagen и Toyota. Дешевая работа учащихся нескольких тысяч техникумов (даже не вузов!) страны позволяют Китаю оставаться конкурентным на мировых рынках. Поэтому на неё в основном закрывают глаза.

Студенты ПТУ в Китае ещё со времен великого кормчего Мао должны проходить обязательные стажировки, учиться труду на местах. Раньше это были «народные коммуны» (аналоги колхозов), потом — заводы. Со времени перехода на рыночную экономику (1992 год, XIV съезд) такие стажеры чаще всего служат источником дешевой рабочей силы для фабрик, колл-центров, компаний по модерации контента и парков развлечений. Теперь это пошло и в IT. Согласно публичным отчетам и интервью со студентами, учащиеся по программам «Информатика», «Большие данные» и «Искусственный интеллект» должны отработать в сотрудничающей с училищем компании как минимум 6 месяцев. Всё это время они получают одну из самых низких оплат труда в стране.

7133d96837b941fc21d47914abb13e3e.png

Сами училища рекламируют стажировки по аннотированию данных как способ «улучшить свои карьерные перспективы» и «приобрести навыки, связанные с искусственным интеллектом». Но в основном студенты говорят, что чувствуют себя как на заводе, только с компьютером вместо конвейера. Им приходит деталь (картинка, видеоряд) — им нужно её обработать за несколько секунд — и тут же приходит следующая деталь. Времени для отдыха нет. Тем студентам, которые проходили стажировку до 2022 года, не платили зарплату. Сейчас — платят почти в три раза меньше минимума, плюс доплачивают по 0,2 юаня (3 цента) за каждую полную успешную маркировку изображения.

Во всем мире технологические компании передали работу по аннотированию данных на аутсорсинг. В основном — развивающимся странам Африки (французские, американские компании) и Южной Америки (компании, работающие на испанском или португальском). У Китая такой возможности нет. Китайский язык за пределами страны не понимает почти никто. Поэтому в стране строят центры аннотаций в более бедных внутренних регионах, часто при поддержке местных органов власти, стремящихся привлечь инвестиции и повысить уровень занятости. 

Многие технологические гиганты Китая заключили партнерские отношения с профучилищами в этих менее развитых регионах, чтобы те организовывали стажировки по аннотированию данных. Например, в марте прошлого года поисковый гигант Baidu открыл центр аннотации данных при ПТУ в Цзюцюань провинции Ганьсу, одной из беднейших провинций Китая. Компания получила на это 30 миллионов юаней (4,1 миллиона долларов) от правительства города — чтобы развивать местную IT-отрасль. Согласно этому сообщению студента на онлайн-доске объявлений Цзюцюань в 2022 году, их школа заставила 160 студентов аннотировать данные для Baidu, угрожаятем, что иначе они не получат ученую степень.

Центр Baidu

Центр Baidu

68fcfb0b2f5bb70e274ec00516a9dfd3.png

Расположенная в Гуйчжоу фирма по маркировке данных Mengdong работала с такими технологическими гигантами, как Baidu, Alibaba и JD.com. Её основатель одновременно руководит большой профессиональной «некоммерческой» IT-школой Guizhou Forerunner College. Эта школа и составляет большую часть рабочей силы Mengdong. По данным государственных СМИ, в 2021 году в фирме работал 1461 студент. Учащиеся принесли компании доход более 19 миллионов юаней (2,6 миллиона долларов).

«Ходить в школу — значит идти на работу. Их учителя — это их офис-менеджеры», — в репортаже об этом сказал Ху Динсян, учитель, который тоже работал в Mengdong.

В фирме тогда заявили, что учащимся платят, и что они предоставляют эту опцию, чтобы студенты из села могли компенсировать себе плату за обучение.

 В реальности, конечно, компании предпочитают нанимать студентов-стажеров, потому что особых знаний для аннотации не нужно, а студентам можно платить меньше, говоря, что это такое обучение. К тому же не нужно платить пенсионные, страховку и социальное обеспечение. Школы всегда берут комиссионные за предоставление своих учащихся. Иногда они оформляются как «соглашения» с компаниями на помощь в реставрации того или иного помещения школы или переоборудования его в кабинет информатики. Школа может получать до 50% зарплаты своих студентов (но чаще — 20–30%).

Можно также нанимать студентов через онлайн-порталы вакансий. В таком случае школы своих комиссионных не получат. Но тогда и студентам приходится платить гораздо больше.

Первый день стажировки новых аннотаторов

Первый день стажировки новых аннотаторов

Оценивается, что примерно 60% аннотаторов данных в Китае — студенты ПТУ. Со стандартной схемой работы по восемь часов в день, шесть дней в неделю, сроком не менее шести месяцев. Им платят по 3 цента за аннотацию и каждый день ранжируют в зависимости от объема данных, которые они успели промаркировать. Ни в одном контракте об этом не говорится, но лучшие маркировщики иногда получают поблажки со стороны учителей. Им ставят хорошие оценки и могут привести в пример другим на уроках.

В то же время сами ученики жалуются на низкую зарплату и переутомление. Многие из них происходят из сельской местности и вроде бы должны привыкнуть к тяжелому труду. Но нередко возникают даже случаи самоубийств студентов, проработавших на стажировке. Некоторые из наиболее громких вызвали общественное возмущение в стране. В данном конкретном случае 17-летний ученик прыгнул с 6 этажа общежития спустя 15 дней после начала стажировки. Его отец пытается засудить компанию и школу, организовавшую коллективный принудительный труд.

За неделю до этого тем же способом решил уйти из жизни 16-летний подросток. В его случае стажировка включала обязательную сверхурочную работу. При этом работали учащиеся в основном после того, как заканчивался день работы обычных сотрудников (чтобы не пустовали рабочие места). То есть в ночную смену, с 20:00 до 07:30 утра. Им платили зарплату, 1800 юаней ($246), но её частью приходилось делиться со школой. Они жили в общежитии, и им запретили возвращаться домой на шесть месяцев во время стажировки под угрозой отчисления и выселения.

По всей стране таких случаев десятки каждый месяц. В новости это попадаеттолько тогда, когда родители начинают громко обвинять местные власти, или это происходит несколько раз подряд в одном техникуме или компании. Количество обычных случаев выгорания, уходов из школ или проблем со здоровьем никто не считает.

b08e6d6dd064cb1025860413947e5b36.png

Аннотаторы данных, помогающие развивать ИИ, который модерирует контент, также часто сталкиваются с травмирующими видео или изображениями. Так, одна из фирм по маркировке данных в провинции Чжэцзян содержала команду из нескольких сотен учениц профессионально-технических училищ. Они просматривали наборы данных для китайского технического гиганта NetEase. Работа заключалась в отсеивании жестокого и порнографического контента. Ученицы-подростки по 8 часов в день смотрели на кровавые изображения, расчлененку с животными и обнаженные фото людей. По их словам, «после рабочего дня хотелось промыть глаза».

Учащиеся действительно прикасаются к той заветной индустрии, в которой им хотелось работать — сфере искусственного интеллекта. И начинают лучше разбираться в одном из её аспектов. Но для поиска какой-либо другой работы в ней им это не помогает. Чаще всего после выпуска процесс подбора работы начинается с нуля уже силами самих бывших студентов.

© Habrahabr.ru