Мир копий и двойников: зачем нужна цифровая обработка геометрии11.10.2021 19:33

11.10.2021, 18:52

От беспилотных автомобилей до цифровых аватаров: обработка геометрических данных лежит в основе многих технологий, которые быстро становятся привычными. Научный сотрудник Сколтеха, лауреат премии имени Ильи Сегаловича 2021 года и выпускник Школы анализа данных Яндекса Алексей Артёмов рассказывает, как нейросети помогают создавать медицинские протезы и восстанавливать культурные памятники.

Мир копий и двойников: зачем нужна цифровая обработка геометрии

Обработка геометрических данных: что это такое

Компьютерное зрение — быстро развивающаяся и суперширокая область компьютерных технологий, к которой причастны сотни тысяч людей. Одни занимаются пониманием и извлечением содержания из изображений, другие — системами видеонаблюдения и автопилотирования, третьи — дополненной реальностью, кино и фотографией.

Моя специализация — цифровая обработка геометрии (3D geometry processing), то есть высокоточная реконструкция объектов по изображениям и создание их трехмерных моделей.

Обработка геометрических 3D-данных — междисциплинарная область на стыке математики, компьютерных наук и инженерного дела. Для построения цифрового трехмерного двойника требуется множество данных об объекте, например большой массив фотоснимков или 3D-сканы (мы используем технологию структурированной подсветки, когда на объект проецируются специальные изображения, позволяющие системе выделить его геометрию). Могут также использоваться камеры глубины, например Kinect. Чем больше данных, тем лучше. Нейросеть или другой алгоритм способны обсчитать массив данных и выдать цифровую версию объекта. Наша задача — сделать процесс настолько точным, чтобы можно было воспроизвести копию, например с помощью 3D-принтера.

Работа специалистов в области восстановления геометрических 3D-данных связана с формой — и этим напоминает работу скульпторов. Всё начинается с подготовки объекта к процессу сканирования и выбору оптимальной стратегии оцифровки — ведь исходными данными могут быть, например, CAD-модели, 3D-сканы, фотографии, чертежи или объемные томограммы.

Само получение трехмерной информации — необходимый, но часто наиболее простой шаг. Затем нужно провести определенные манипуляции с этими данными: очистить их от топологических и геометрических ошибок, убрать шум. Финальный продукт обработки геометрии может быть виртуальным (например, для использования в компьютерной графике) или реальным физическим предметом (скажем, произведенным на 3D-принтере или на станке для лазерной резки).

В последние годы компьютерное зрение и обработка геометрии, как и вся область компьютерных наук, сильно выиграли от внедрения глубокого обучения и нейросетевых моделей, способных автоматически восстанавливать точную 3D-форму объектов и эффективно описывать их содержание по изображениям, даже когда исходные данные зашумлены.

Медицина, реверс-инжиниринг, реконструкция: где применяется geometry processing

Сложно придумать сферу, где компьютерное зрение и обработка геометрических данных не могли бы принести пользу. По сути, geometry processing можно применять везде, где есть потребность в создании физических или виртуальных копий.

Одно из самых интересных и важнейших применений трехмерного глубокого обучения связано с медициной: это и ускорение измерений, в первую очередь, времязатратной томографии, и анализ ее результатов, скажем, для выявления опухолей или других заболеваний мозга.

Например, мои коллеги по лаборатории Максим Шараев и Александр Бернштейн занимаются анализом данных магнитно-резонансной томографии. Суть их работы в том, чтобы создать полезный для врачей инструмент, снижающий затраты усилий рентгенолога на поиск симптомов инсульта или эпилепсии. Основная проблема в области медицинских данных исторически сводилась к ограниченности количества таких данных, но сейчас уже можно натренировать нейросеть на тысячах размеченных врачами МРТ-срезов и пытаться обнаруживать, к примеру, патогенные изменения структуры коры головного мозга при эпилепсии.

Кроме того, для нейрохирургии важно, что такая система потенциально позволяет перед операцией на мозге локализовать зону поражения, которую затем можно подвергнуть резекции, не затронув ничего лишнего.

Таким образом, нейросети могут выступать своего рода аналогом второго мнения при диагностике болезней, оценивая, насколько велика вероятность патологии в конкретном месте. Кстати, во время пандемии COVID-19 выяснилось, что нейросети могут довольно точно распознавать пневмонию на рентгеновских снимках.

Одна из наиболее сложных проблем для расширения медицинских приложений, помимо юридических вопросов, — проблема количества и качества обучающих данных. Долгие и дорогие в получении исходные снимки могут оказаться геометрически несовместимы или слишком искажены: где-то пациент передвинулся в томографе, глубоко вдохнул, в результате часть снимков может испортиться.

Другое очевидное медицинское применение технологии — протезирование, создание трехмерных моделей зубов или костей. Например, можно из биоматериала делать коронки, в точности совпадающие с формой зуба. Ученые из Калифорнийского университета в Беркли при участии американского математика русского происхождения Алексея Эфроса разработали систему, которая способна генерировать 3D-модели медицинских изделий, например зубных коронок для применения в стоматологии. В ее основе лежит генеративно-состязательная сеть (GAN) — популярная сейчас тема для исследований. Наши коллеги из Яндекса много этим занимаются, недавно, скажем, они опубликовали статью, в которой описали метод для автоматической сегментации изображений. Их модель может самостоятельно, без участия человека, научиться выделять объекты на переднем плане, затемняя пиксели фона и подсвечивая сам объект.

Конечно, можно моделировать не только протезы, но и детали. Поэтому обработка геометрии применяется в промышленности: для моделирования, реверс-инжиниринга, оптимизации и производства деталей. Например, в Сколтехе мы печатаем на 3D-принтере различные держатели и кронштейны для экспериментальных установок, а недавно провели большое исследование по реверс-инжинирингу моделей CAD-деталей, напечатанных из пластика и отсканированных 3D-камерой.

Можно пойти еще дальше и реконструировать целые сцены, как делает наш коллаборатор из Мюнхенского технического университета Матиас Нисснер. Если 3D-художники создают анимированные и текстурированные модели зданий и интерьеров вручную, то специалисты по компьютерному зрению интересуются, можно ли автоматически реконструировать модели аналогичного качества для реальных локаций. Только представьте, какие возможности это открывает для виртуальной реальности, кино, компьютерных игр и симуляторов! Пока, правда, между этими полюсами существует пропасть: трехмерные модели, которые можно получить из снимков, как правило, слишком грубые, недостаточно масштабные или их приходится «доводить» вручную. Но качество таких реконструкций постоянно растет, и разрыв постепенно сужается.

Можно сохранять и восстанавливать памятники культурного наследия с помощью оцифровки фотографий и лазерного сканирования — такими проектами, например, занимаются Стэнфордский университет и французская компания Iconem. Пожалуй, самые известные проекты в этой сфере — цифровая копия «Давида» Микеланджело и 3D-скан сирийской Пальмиры. Ее удалось отснять до того, как памятник взорвали боевики. По этим сканам, охватывающим несколько квадратных километров, нейросеть создала виртуальную копию объекта. Подобные проекты были и в Европе, где оцифровывали памятники эпохи Возрождения, а в Армении сканировали православные храмы XI века. У нас тоже есть небольшой проект в этой области. Планируем создать трехмерную модель некоторых помещений Исторического музея.

Впрочем, обработка геометрических данных важна не только в медицине или музейном деле — иногда результаты ее применения можно встретить буквально на улице. К примеру, беспилотные автомобили используют лидары для детектирования препятствий и локализации на карте — по сути, накапливают геометрическую информацию для трехмерных карт. Исследователи из Сколтеха и Яндекса написали научную статью, в которой предложили метод для определения положения объекта в трехмерном пространстве по фотографии, сделанной камерой автомобиля — еще один пример того, как геометрические построения могут применяться в беспилотном транспорте.

Разнообразие сфер применения цифровой обработки геометрии показывает, насколько поразительна эффективность математики. Сравнительно ограниченный математический аппарат можно использовать практически бесконечно, ведь одинаковые, в общем, алгоритмы отвечают и за производство шестеренок, и за реконструкцию собора Парижской Богоматери.

Что будет дальше

Мы пока находимся в самом начале пути. В ближайшие годы развитие цифровой обработки геометрии может привести к революции в производстве. С помощью 3D-печати можно изготовить предмет из материалов, которые раньше не применялись. Для выпуска продукции не требуется конвейер и его обслуживание. Создание уникальных объектов становится проще.

Можно будет восстанавливать любые предметы с высокой точностью и делать их копии: например, сфотографировать объект и сразу же его напечатать на 3D-принтере.

Появятся реалистичные цифровые аватары: с помощью алгоритмов стереовосстановления (и новых смартфонов с камерами глубины) станет возможным создавать свои трехмерные модели для полноценного виртуального общения. Работа на удаленке станет мало отличима от привычных коммуникаций в офлайне.

И, конечно, будущее науки — это коллаборации и междисциплинарность. Самое интересное будет происходить на стыке машинного обучения, биотехнологий, культуры и дизайна. Например, генеративный промышленный дизайн — обучение генеративных моделей для синтеза предметов и изображений — позволит создавать бесконечный спектр вариантов для производственного проектирования. Вы сможете сказать: «Хочу получить стул произвольной формы», и нейросеть смоделирует случайный 3D-объект, который, если дизайн понравится, можно будет запустить в производство.

Автор: Алексей Артёмов, научный сотрудник Сколтеха, лауреат премии имени Ильи Сегаловича 2021 года и выпускник Школы анализа данных Яндекса