Компьютерное зрение: от научной проблемы к повседневности
Научно-исследовательскому направлению Microsoft – Microsoft Research – в сентябре 2011 года исполнилось 20 лет. Мы продолжаем рассказывать об интересных людях, которые создают наше цифровое будущее, а так же о деятельности этой организации по всему миру.
Проведение научных летних школ – одно из ключевых направлений сотрудничества между Microsoft Research и российскими учеными. В этом году такая школа была организована совместно с Факультетом вычислительной математики и кибернетики МГУ им. М.В. Ломоносов и посвящалась теме компьютерного зрения. Это ― одно из фундаментальных направлений, над которым работает лаборатория Microsoft Research в Кембридже. Большую роль в этом играет сотрудничество Microsoft Research с Московским государственным университетом.
Рассказать о проблематике компьютерного зрения мы попросили одного из организаторов и руководителей Летней школы, руководителя группы компьютерного зрения Лаборатории компьютерной графики и мультимедиа ВМК МГУ Антона Конушина.
***
Антон Конушин , к.ф.-м.н., научный сотрудник лаборатории компьютерной графики и мультимедиа ВМК МГУ имени М.В. Ломоносова, с 2007 года руководитель исследовательской группы по компьютерному зрению. Автор курсов «Введение в компьютерное зрение» и «Анализ изображений и видео». Соучредитель и научный консультант стартапов «Лаборатория компьютерного зрения» (бывш. ФотоГородМод) http://labcv.ru/ , «Технологии мобильного картографирования» http://mobimaptech.com/ , «Технологии видеоанализа» http://tevian.ru.
***
Практических областей, в которых находят применение технологии компьютерного зрения, много. Во-первых, это дистанционное зондирование и геоинформационные системы, ― обработка спутниковых данных, аэрофотосъемки, создание карт. Раньше это были, в основном, плоские карты, сейчас создаются трехмерные. В качестве примера можно привести систему Microsoft Virtual Earth, в которой можно посмотреть трехмерные модели многих городов, пользовательские фотографии разных достопримечательностей, совершить виртуальное путешествие. Есть и специализированные области применения технологий компьютерного зрения, связанные с дистанционным зондированием, например, такие как контроль пожаров, отслеживание состояния лесов, частичный анализ погоды, планирование развития городов, наблюдения за ЛЭП. Дистанционное зондирование ― очень широкая область, но мало знакомая для обычного человека.
Гораздо чаще люди сталкиваются с применением компьютерного зрения при создании кинофильмов. Например, захват движения для анимации виртуальных персонажей ― типичный пример компьютерного зрения. В кино и телевидении давно используются такие технологии, как захват лицевой анимации. С появлением Kinect стало возможно проводить анимирование виртуальных персонажей и в домашних условиях. Раньше это было доступно только дорогим студиям, а сейчас можно снять фильм в домашних условиях и анимировать виртуального персонажа, сделать свой собственный компьютерный мультфильм, пользуясь очень дешевым оборудованием и программными средствами.
Следующая большая область применения компьютерного зрения ― медицинские изображения. Настоящий прорыв в области медицины случился с появлением технологии, позволяющей заглянуть внутрь человека. Я говорю о трехмерной томографии, ядерно-магнитном резонансе, позитронно-эмиссионной томографии и т.д. Все эти устройства позволяют получать изображение разных процессов, происходящих внутри человека. И формирование трехмерной картинки – это и есть область компьютерного зрения. В этой области возникает много проблем, связанных с анализом изображений для помощи докторам в постановке диагноза, для обращения внимания людей на разные аспекты медицинских изображений.
Другой пример. При отслеживании кожных заболеваний тоже используются технологии компьютерного зрения, когда фотографируется полностью все тело человека, определяются все пятнышки на теле. Эти пятнышки отслеживаются во времени, чтобы определить, является ли это новым образованием и не нужно ли врачу обратить на это внимание, и, может быть, назначить какое-то лечение. Поскольку на теле человека таких пятнышек тысячи и десятки тысяч, вручную врач практически не может их осмотреть, приходится пациента разглядывать буквально с лупой, и помнить, какого размера это пятнышко было месяц назад, и какая у него динамика. С помощью систем компьютерного зрения все эти пятнышки можно регистрировать автоматически, и доктор получает объективную картину, по которой он уже может ставить диагноз. Это не полная замена врача, нет, но это ― серьезная помощь человеку.
Kinect принес компьютерное зрение в область развлечений и сформировал целый новый рынок в этой области.
Еще одно широкое применение компьютерного зрения ― системы видеонаблюдения и системы безопасности, которые широко применяются во всем мире, и в России в том числе. Существуют десятки компаний, которые занимаются системами видеонаблюдения, и они в той или иной мере используют элементы компьютерного зрения.
Еще одна отдельная область ― помощь в редактировании фотографий. Сейчас редактирование фотографий – это очень трудоемкий процесс, требующий огромного опыта художника-ретушера. Если мы научимся детально распознавать все объекты на изображении, то мы можем упростить многие операции. Например, мы можем перенести выражение лица одного человека на фотографию другого человека. Если, например, на фотографии человек не улыбнулся – мы можем синтезировать новое изображение, на котором этот же самый человек улыбается.
Есть целые системы, которые пытаются автоматически улучшить внешность человека на фотографии. Очень любопытный пример: пока, это конечно, исследовательская работа из области развлечения, так называемое «украшательство» фотографий. Необходимо по вашей фотографии сделать такую, о которой любой человек скажет, что это действительно вы, но большинство людей оценили бы эту фотографию как более красивую. Понятно, что коммерческого применения такая технология, может быть, не имеет, разве что повысит популярность какого-нибудь сайта знакомств.
Я не упомянул еще одну сферу применения компьютерного зрения. Это ― «неразрушающая диагностика». Существует множество конструкций: ЛЭП, дороги автомобильные и железнодорожные, для которых очень важен непрерывный мониторинг их текущего состояния для планирования ремонта, нахождения дефектов, контроля качества ремонта. Сейчас эти процедуру делаются в основном вручную. Это дорого и занимает очень много времени, поэтому в каждый момент времени нет объективной картины: какое у нас в действительности состояние дорог и сколько требуется провести ремонта. Все эти оценки очень грубые, а с помощью систем компьютерного зрения, которые сейчас находятся в разработке, мы можем оценить состояние дороги с точностью до каждой трещинки, и сказать, что на этой дороге есть 1058 трещин, которые требуют ремонта, и это потребует такого-то финансирования на ремонт, а затем проконтролировать, что все было сделано и никакие дефекты не забыты. Для России это – крайне актуальная тема, которой уделяют очень много внимания, даже есть специальный закон, обязывающий регулярно проводить мониторинг дорожного хозяйства, но этот закон невозможно выполнить физически из-за отсутствия практических систем. Но исследования в этой области ведутся.
Доклад Антона Конушина на первой конференции TEDxRU, посвященный компьютерному зрению:
http://www.tedx.ru/tedx-moscow; http://youtu.be/WMjGFpwcEZI.