Для чего беспилотным автомобилям все еще нужны люди
Самая сложная задача для беспилотного автомобиля
Три основные задачи, которые стоят перед разработчиками беспилотного автомобиля — это а) локализация автомобиля на местности, б) распознавание многообразной окружающей среды и в) планирование маршрута с учетом нюансов правил дорожного движения и текущей дорожной ситуации. К самой сложной из них относится распознавание: на дороге постоянно происходит что-то непредсказуемое. Именно с этой задачей должно справиться машинное обучение, а именно то, что нам известно под названием нейросетей. Именно в их стабильной работе, кажется, и лежит разрешение основных проблем, препятствующих выезду автомобилей на дороги общего пользования.
Что делают нейросети в беспилотных автомобилях?
Слоган беспилотника Google Waymo, который уже сейчас может заказать через приложение каждый желающий в Финиксе, штат Аризона — «Building the most experienced driver» («Строя самого опытного водителя»), говорит нам о том, что уже в недалеком будущем мы будем иметь дело с водителями совсем нового типа, опыт которого не равен водительскому стажу, а коррелирует с числом ситуаций, на которых обучены нейросети.
Отличать запрещающий сигнал светофора от разрешающего, прерывистую линию разметки от сплошной, велосипедиста от пешехода — легкие повседневные задачи для человеческого водителя. Те же самые задачи становятся большими проблемами для разработчиков беспилотных автомобилей. Люди в большинстве случаев с легкостью ориентируются во всех дорожных ситуациях. В свою очередь, машину также необходимо научить этому навыку, закодировав массу дорожных случаев, возникающих на дороге.
Чтобы быть восприимчивыми к среде, беспилотные автомобили оснащены различными вариантами сенсоров: камерами, лидарами, радарами, ультразвуковыми датчиками. Нейросети обрабатывают данные с этих датчиков, делая предположения о том, что встречается на дороге. Именно нейросети ответственны за распознавание важных инфраструктур и ситуаций: сигналы светофоров, разметка, знаки, внезапно выбегающие на дорогу люди. Нейросети выделяют из дорожной среды значимые объекты, заставляя автомобиль реагировать: например, притормозить у пешеходного перехода.
Кажется, все довольно просто: если все участники дорожного движения известны и дорожная среда формализована различными видами знаков, то нетрудно обучить нейросеть ориентироваться на дорогах. Однако в реальности все может быть совсем по-другому. В одних случаях знаки могут быть не видны (например, закрыты ветками деревьев), а в других — могут быть неправильно распознаны автомобилем. В видео, представленном ниже, автомобиль Tesla распознает эмблему Burger King как запрещающий знак.
Это же подтверждает в своей лекции Роман Удовиченко, руководитель группы обработки дорожной ситуации в направлении беспилотных автомобилей Яндекса:
«Когда вы начинаете разрабатывать беспилотные автомобили, оказывается, что на дорогах столько всего всего происходит… Если посмотреть на записи проездов беспилотных автомобилей, можно увидеть что-нибудь такое: где-то несут дерево, где-то несут байдарку, где-то люди на лошадях перескакивают дорогу».
Как же поступать с такими случаями? Чтобы нейросеть смогла успешно справляться с максимальным количеством как рутинных, так и неожиданных ситуаций, которые могут возникнуть на дороге, необходимо собрать данные реальных проездов. Именно эти данные формируют датасеты для обучения нейросетей.
С чего начинается нейросеть?
Нейросети начинаются с датасетов. Датасеты — это большие массивы информации, те самые данные с сенсоров, которые используются для обучения нейросетей. Это могут быть данные с камер или лидаров, которые принимают форму, например, фотографий или лидарных облаков точек.
По мнению Андрея Карпатого, директора AI и компьютерного зрения (Autopilot Vision) в Tesla, в датасете является ведущим не количество данных, а покрытие возможного пространства ситуаций, с которыми может столкнуться машина, передвигаясь по городским дорогам. Однако все-таки размер важен: ведь в большем количестве данных возрастает вероятность встретить разнообразные ситуации: будь то люди, несущие байдарку, или стая уток. Чем больше таких разнообразных данных знает и умеет обрабатывать нейросеть, тем, в свою очередь, больше точность их правильного распознавания. Таким образом, датасет должен соответствовать трем условиям, чтобы нейросеть работала хорошо: он должен быть большим, разнообразным и основываться на данных реальных проездов.
Разметка датасетов
Но как нейросеть понимает, что перед ней? Необходимо разметить тысячи и тысячи картинок. Вспомним капчу Google, где надо найти, например, все мосты или пожарные гидранты — это тоже пример разметки датасетов.
В обучении датасетов необходимо придерживаться иерархии: как и люди, нейросети обучаются от простого — к сложному. Обучая нейросеть распознавать, например, дорожную разметку, сначала берутся случаи, где хорошее дорожное покрытие, сухая погода, разметка свежая или в хорошем состоянии, не закрыта другими машинами. Постепенно могут добавляться новые, более сложные элементы: например, тип разметки будет тот же, но ее часть не будет видна, так как поток машин слишком плотный. Когда датасет только формируется, разметка происходит вручную. Такая несложная, но кропотливая работа обычно дается компаниями на аутсорс: используя мышку, человек размечает линии разметки. Так, процессы распознавания, решающие для беспилотных автомобилей, начинаются не просто с датасетов, а с датасетов, которые размечаются вручную.
Машинные и человеческие классификации
Зачастую вместе с разговором о беспилотных автомобилях вспоминают о больших возможностях нейросетей, которые сделали возможным новый тип мобильности. Однако датасеты, которые все еще подчеркивают важность человеческого взгляда для нейросети, остаются за кадром.
Через беспилотные автомобили проявляются два типа классификации — человеческая и машинная. Внутри нейросетей постоянно происходит машинная классификация, и от нее зависит, распознает ли беспилотный автомобиль то, что перед ним находится в каждый момент движения. Иногда в эту классификацию вмешивается человек, на основе своих знаний и опыта помогая нейросети справляться с задачами. Обучение нейросети строится на постоянном повторении, обращении к данным, разметке и тренировкам.
Кажущееся господство искусственного интеллекта в беспилотных автомобилях неожиданным образом демонстрирует связь технического и человеческого, которая проявляется в датасетах. В беспилотных автомобилях человек остается заметен, а два режима классификации — машинная и человеческая — сосуществуют вместе.
Материал подготовлен совместно с Центром Исследований науки и технологий
Автор: Маша Киселева