Предсказать будущее на 8 секунд
Кирилл Бродт — молодой ученый, аспирант университета Монреаля и сотрудник центра искусственного интеллекта МТС. Его команда заняла третье место в Waymo Motion Prediction Challenge — престижном международном соревновании дата-сайнтистов, которые развивают проекты в области компьютерного зрения и предиктивной аналитики. В нем принимали участие 19 команд из разных стран.Победители создали наиболее точные модели, которые прогнозируют поведение участников дорожного движения. Как команда Кирилла решала одну из ключевых задач индустрии автономного вождения, расскажем в этой статье.
Беспилотный проект Waymo — дочерняя компания холдинга Alphabet Inc (Google), один из мировых лидеров в области разработки беспилотных автомобилей. С октября 2020 года роботакси Waymo совершают коммерческие поездки без водителей-испытателей за рулем. Waymo управляет коммерческим сервисом беспилотных такси Waymo One, который работает в Аризоне.
Любой водитель должен понимать, что собираются делать окружающие его участники дорожного движения. Этот пешеход пытается перейти улицу? Эта машина припаркована параллельно или вот-вот свернет на мою полосу? Остановится ли этот мчащийся автомобиль у знака «Стоп»? Правильная оценка вероятного поведения других водителей также важна для безопасности и безаварийной езды.
Прогнозирование действий других участников дорожного движения — один из самых важных вопросов для развития индустрии автономного вождения. Сейчас он находится в стадии активного исследования. Чтобы сделать большой шаг вперед в индустрии беспилотного транспорта, достаточно с высокой степенью точности предсказать, где окажутся другие автомобили и участники дорожного движения в ближайшие несколько секунд. Придумать, как это сделать, компания Waymo предложила в рамках международного соревнования Waymo Motion Prediction Challenge. Суть задания состояла в том, чтобы, наблюдая за участниками дорожного движения в течение одной секунды, предсказать их действия в течение следующих восьми секунд. При этом речь шла не об одном перекрестке, масштаб решения — город в США.
Два миллиона кадров для точного прогноза
Над решением этой задачи работали порядка 20 команд из разных стран. В команде Кирилла также были Степан Конев из Сколтеха и Артём Санакоев из университета Гейдельберга. У ребят было 2 недели на то, чтобы разработать свой подход.
«Сложность была в том, что исходные данные представляли из себя большую таблицу с многочисленными параметрами, такими как положение объектов (дорожные полосы, светофоры) и агентов (автомобили, велосипедисты и пешеходы), включая их скорости, угловые скорости и направления. Чтобы решить задачу, нам нужно было сначала представить эти данные в удобном виде, — рассказывает Кирилл. — Мы провели растеризацию, то есть нанесли дорожную карту и положения всех объектов на изображение, кодируя их историю дополнительными каналами. Другими словами, превратили табличные данные в картинки, именно это стало самой трудоемкой частью решения. Это позволило получить вид сверху, понятный для человека. Далее мы применили свёрточные нейронные сети, которые отлично подходят для изображений и предсказали 6 различных траекторий каждого участника дорожного движения на 8 секунд вперёд.
В процессе приходилось дорабатывать изображения — мы анализировали, какое именно разрешение картинки подавать модели, чтобы получался наиболее вероятный и точный прогноз. Команда собрала порядка двух миллионов кадров, чтобы получить наиболее верную траекторию для всех агентов дорожного движения — автомобилей, людей, велосипедистов, учитывая знаки дорожного движения, светофоры».
В итоге все участники представили организаторам соревнований несколько вариантов прогнозных траекторий движения, каждую из них сравнили с реальной и измерили качество модели. Считалось количество попаданий и промахов предсказанной траектории в некоторую окрестность эталонной, и исходя из этого вычисляли показатель mean Average Precision (mAP — средняя точность), который и был финальным результатом. Итог работы команды Кирилла — 0,2 mAP, победители выиграли с результатом 0,3 mAP. Можно сказать, что удалось предсказать реальные траектории участников дорожного движения с точностью до нескольких десятков сантиметров.
«На данном этапе развития ML-модели еще не научились эффективно предсказывать траектории движения, — размышляет дата-сайнтист. — Это видно и по метрикам победителей соревнования: 0,2 и 0,3 mAP — это не та точность предсказания, которую можно использовать в реальном мире. Но и такой результат — это важное достижение, которое участники индустрии будут развивать, чтобы беспилотный транспорт стал нашей ежедневной реальностью.
Кстати, команда-победитель решала задачу другим способом: они использовали графовые нейросети, которые учитывают структуру графа, выстраивая взаимосвязи — дороги между агентами дорожного движения — вершинами. Они не представляли данные в виде изображений, потому что работали с другим алгоритмом».
Эра беспилотников не за горами
Чтобы использовать решения победителей на практике, их нужно доработать. Однако и это не означает успешного применения, так как кроме самого алгоритма, важно, чтобы скорость обработки данных была на соответствующем уровне.
«Например, если система будет в течение минуты обрабатывать один кадр, чтобы предсказать развитие событий на 8 секунд вперед, то это не сработает. Я думаю, что решение этой проблемы лежит в плоскости мощности процессора, однако и сам алгоритм должен быть не тяжелым, простым в исполнении, но при этом качественным, — делится Кирилл. — Нельзя сказать, что развитие индустрии беспилотного транспорта зависит от какого-то конкретного фактора, гораздо важнее — развитие технологии прогнозирования будущего с помощью ИИ. Эта тенденция окажет влияние как на область беспилотного транспорта, так и на другие сферы применения машинного обучения, компьютерного зрения и разных ИИ-решений.
Все алгоритмы, которые сейчас создаются, работают на стыке нескольких технологий, например, могут одновременно применяться компьютерное зрение, глубокое обучение, кинематика и теория управления. Машинное обучение не может дать 100% гарантии, что произойдет определенное событие, оно дает вероятностную оценку. Именно поэтому для эффективности работы систем их будут продолжать развивать комплексно. Возможно, через 10 лет беспилотники станут абсолютно безопасными и будут использоваться повсеместно. Пока человек стремится упрощать свою жизнь, технологии искусственного интеллекта будут развиваться и помогать людям автоматизировать разные процессы».
Предсказание будущего. Уже не фантастика
Задача предсказания положения объектов в пространстве важна не только для развития индустрии беспилотного транспорта. Любой автономный объект — будь то робот, дрон или автомобиль — интересует будущее положение других машин, людей, предметов вокруг него. От того, насколько успешно и быстро будет решен этот вопрос, зависят перспективы развития целой индустрии. Роботы будут готовы заменить людей не только за рулем, но и на опасной работе: например, в поисково-спасательных отрядах или в исследовании глубин океанов.
Искусственный интеллект может взять на себя не только опасную работу, но и ту, выполнение которой занимает у людей много времени. Например, при создании мультфильмов, компьютерной графики, геймдизайна. И здесь умение предсказать положение нарисованного персонажа в пространстве тоже может стать основой прорыва.
«При производстве игр или фильмов художник делает наброски на бумаге, после этого вручную превращают рисунок в трехмерную модель в компьютерной программе, — объясняет дата-сайнтист Кирилл Бродт. — При задании позы персонажа требуется настроить углы для каждого сустава скелета 3D-модели. Делать это вручную — долго и не эффективно. Задача машинного обучения в этой сфере — автоматизировать процесс, упростить и ускорить работу человека».
Сейчас Кирилл Бродт учится в аспирантуре университета Монреаля и исследует задачу предсказания 3D-позы нарисованных персонажей. На рынке уже существуют компании, которые предлагают решения, способные создать 3D-модель движений человека на основе фотографий и видео. Подобные технологии применяются в системах видеоаналитики, где требуется определить положение и действия людей в трехмерной плоскости.
В Центре ИИ МТС Кирилл также работает над задачей определения высоты зданий по аэроснимку. Способность анализировать местность с высоты птичьего полета может использоваться для беспилотных дронов, чтобы они могли ориентироваться в пространстве автономно, а также для оценки изменений в городе — следить за динамикой строительства или реагировать на происшествия — аварии или стихийные бедствия, вариантов применения таких решений множество.