Инновации Azure Media Services на основе искусственного интеллекта
Распознавание анимированных персонажей, расшифровка многоязычной речи и многое другое— уже доступно
Миссия Microsoft заключается в том, чтобы дать каждому человеку и организации на планете возможность достичь большего. Медиаиндустрия — отличный пример воплощения этой миссии в реальность. Мы живем в эпоху, когда создается и потребляется все больше контента, все большими способами и на большем количестве устройств. На IBC 2019 мы поделились последними инновациями, над которыми сейчас работаем, и рассказали о том, как они могут помочь преобразовать ваш медиапроцесс.
В Индексаторе видео появилась поддержка анимации и многоязычного контента
В прошлом году на IBC мы сделали общедоступным наш удостоенный наград Индексатор видео Azure Media Services, и в этом году он стал еще лучше. Индексатор видео (Video Indexer) автоматически извлекает из медиафайлов информацию и метаданные, такие как произнесенные слова, лица, эмоции, темы и торговые марки, и вам не нужно быть экспертом по машинному обучению, чтобы пользоваться им. Наши последние предложения включают предварительные версии двух очень востребованных и дифференцированных функций — распознавания анимированных персонажей и транскрибирования многоязычной речи, а также несколько дополнений к существующим моделям, доступным сегодня в Индексаторе видео.
Распознавание анимированных персонажей
Анимированный контент, мультфильмы — один из самых популярных типов контента, но стандартные модели машинного зрения, созданные для распознавания человеческих лиц, не очень хорошо с ним работают, особенно если в контенте есть персонажи без человеческих черт лица. В новой предварительной версии Индексатор видео объединен со службой Azure Custom Vision компании Microsoft, благодаря чему появился новый набор моделей, которые автоматически обнаруживают и группируют анимированных персонажей и позволяют легко размечать и распознавать их с помощью интегрированных пользовательских моделей машинного зрения. Модели интегрированы в единый конвейер, что позволяет кому угодно использовать эту службу без каких-либо знаний в области машинного обучения. Результаты доступны через портал Индексатора видео, не требующий написания кода, или через REST API для быстрой интеграции в ваши собственные приложения.
Мы создавали эти модели для работы с анимированными персонажами вместе с некоторыми потребителями, которые предоставляли настоящий анимированный контент для обучения и тестирования. Ценность новой функциональности хорошо описал Энди Гаттеридж, старший директор по студийным технологиям и постпродакшену Viacom International Media Networks, который был одним из поставщиков данных: «Добавление надежной функции обнаружения анимированного контента на основе ИИ позволит нам быстро и эффективно находить и каталогизировать метаданные персонажей из нашей библиотеки контента. Самое главное — это даст нашим креативным командам возможность мгновенно находить нужный контент, сведет к минимуму время, затрачиваемое на управление медиа, и позволит сосредоточиться на творчестве».
Начать знакомство с распознаванием анимированных персонажей можно со страницы документации.
Идентификация и транскрибирование содержимого на нескольких языках
Некоторые медиаресурсы, такие как новости, хроники событий и интервью, содержат записи речи людей, говорящих на разных языках. Большинство существующих возможностей перевода речи в текст требует предварительного указания языка распознавания звука, что затрудняет транскрибирование многоязычных видеороликов. Наша новая функция автоматической идентификации разговорного языка для различных видов контента использует технологию машинного обучения для идентификации языков, встречающихся в медиаресурсах. После обнаружения каждый языковой сегмент автоматически проходит процесс транскрибирования на соответствующем языке, а затем все сегменты объединяются в один файл транскрипции, состоящий из нескольких языков.
Полученная расшифровка доступна в составе выходных данных JSON Индексатора видео и в виде файлов с субтитрами. Выходная расшифровка также интегрирована с Azure Search, что позволяет сразу же искать в видеозаписях разные языковые сегменты. Кроме того, многоязычная транскрипция доступна при работе с порталом Индексатора видео, так что вы можете просматривать расшифровку и идентифицированный язык по времени или переходить к определенным местам в видео для каждого языка и видеть многоязычную транскрипцию в виде подписей во время воспроизведения видео. Можно также переводить полученный текст на любой из 54 доступных языков через портал и API.
Подробнее о новой функции распознавания содержимого на нескольких языках и ее использовании в Индексаторе видео читайте в документации.
Дополнительные обновленные и улучшенные модели
Мы также добавляем в Индексатор видео новые модели и улучшаем существующие, включая описанные ниже.
Извлечение сущностей, связанных с людьми и местами
Мы расширили имеющиеся возможности по обнаружению торговых марок, включив в них известные названия и местоположения, такие как Эйфелева башня в Париже и Биг-Бен в Лондоне. Когда они появляются в сгенерированной расшифровке или на экране при использовании оптического распознавания символов (OCR), добавляются соответствующие сведения. С помощью этой новой функции можно выполнять поиск по всем людям, местам и брендам, которые появлялись в видео, и просматривать сведения о них, включая временные интервалы, описания и ссылки на поисковую систему Bing для получения дополнительной информации.
Модель обнаружения кадров для редактора
Эта новая функция добавляет набор «тегов» в метаданные, прикрепленные к отдельным кадрам в подробных сведениях JSON, чтобы представить их редакционный тип (например, широкий кадр, средний кадр, крупный план, очень крупный план, два снимка, несколько человек, на улице, в помещении и т.д.). Эти характеристики типа кадра удобны при редактировании видео для клипов и трейлеров, а также при поиске определенного стиля кадров для художественных целей.
Изучите подробнее обнаружение типов кадров в Индексаторе видео.
Расширенная детализация сопоставления IPTC
Наша модель детекции тематики определяет тему видео на основе транскрипции, оптического распознавания символов (OCR) и обнаруженных знаменитостей, даже если тема не указана явно. Мы сопоставляем эти обнаруженные темы с четырьмя областями классификации: Википедия, Bing, IPTC и IAB. Это усовершенствование позволяет нам включать классификацию IPTC второго уровня.
Воспользоваться преимуществами этих улучшений так же просто, как и переиндексировать вашу текущую библиотеку Индексатора видео.
Новая функциональность потокового вещания в реальном времени
В предварительной версии Azure Media Services мы предлагаем также две новых функции для потокового вещания в реальном времени.
Транскрибирование в реальном времени с помощью ИИ выводит прямые трансляции на новый уровень
Используя Azure Media Services для потоковой трансляции в реальном времени, вы теперь можете получать выходной поток, который включает автоматически генерируемую текстовую дорожку в дополнение к звуковому и видеоконтенту. Текст создается с помощью транскрибирования аудио в реальном времени на основе искусственного интеллекта. Пользовательские методы применяются до и после преобразования речи в текст, чтобы улучшить результаты. Текстовая дорожка упаковывается в IMSC1, TTML или WebVTT, в зависимости от того, поставляется ли она в DASH, HLS CMAF или HLS TS.
Линейное кодирование в реальном времени для круглосуточных (24/7) каналов OTT
Используя наши API v3, вы можете создавать каналы с использованием технологии OTT (over-the-top), управлять ими и вести по ним прямые трансляции, а также использовать все остальные функции Azure Media Services, такие как прямые трансляции видео по запросу (VOD, video on demand), упаковка и управление цифровыми правами (DRM, digital rights management).
Чтобы познакомиться с предварительными версиями этих функций, посетите страницу сообщества Azure Media Services.
Новые возможности формирования пакетов
Поддержка звуковых дорожек описания
Контент, транслируемый по широковещательным каналам, часто имеет звуковую дорожку с устными объяснениями происходящего на экране в дополнение к обычному аудиосигналу. Это делает программы более доступными для слабовидящих зрителей, особенно если контент в основном визуальный. Новая функция звукового описания позволяет аннотировать одну из звуковых дорожек как дорожку аудиоописания (AD, audio description), благодаря чему проигрыватели могут делать AD-дорожку доступной для зрителей.
Вставка метаданных ID3
Для передачи сигнала о вставке рекламы или событий пользовательских метаданных на плеер клиента вещательные компании часто используют метаданные с разбивкой по времени, встроенные в видео. В дополнение к режимам сигнализации SCTE-35 мы теперь также поддерживаем ID3v2 и другие пользовательские схемы, определенные разработчиком приложения для использования клиентским приложением.
Партнеры Microsoft Azure демонстрируют комплексные решения
Bitmovin представляет Bitmovin Video Encoding и Bitmovin Video Player для Microsoft Azure. Теперь клиенты могут применять эти решения для кодирования и воспроизведения в Azure и использовать передовые функции, такие как трехэтапное кодирование, поддержка кодеков AV1/VC, многоязычные субтитры и предварительно интегрированная аналитика видео для QoS, рекламы и отслеживания видео.
Evergent демонстрирует свою платформу управления жизненным циклом пользователя (User Lifecycle Management Platform) на Azure. Являясь ведущим поставщиком решений для управления доходами и жизненным циклом клиентов, компания Evergent использует Azure AI, чтобы помочь поставщикам развлекательных услуг премиум-класса улучшить процесс привлечения и удержания клиентов путем создания целевых пакетов услуг и предложений в критические моменты их жизненного цикла.
Haivision покажет свою интеллектуальную облачную службу маршрутизации мультимедиа, SRT Hub, которая помогает клиентам трансформировать рабочие процессы от начала до конца, используя Azure Data Box Edge и преобразование рабочих процессов с помощью Hublets от Avid, Telestream, Wowza, Cinegy и Make.tv.
SES разработала пакет медиауслуг вещательного класса на платформе Azure для своих клиентов, пользующихся спутниковой связью и управляемыми медиауслугами. SES продемонстрирует решения для полностью управляемых услуг воспроизведения, включая мастер-воспроизведение, локализованное воспроизведение, обнаружение и замену рекламы, а также высококачественное многоканальное кодирование в реальном времени 24×7 на Azure.
SyncWords делает доступными на Azure удобные облачные инструменты и технологию автоматизации создания подписей. Эти предложения облегчат медийным организациям автоматическое добавление субтитров, в том числе на иностранном языке, в рабочие процессы обработки видео в режиме реального времени и офлайн на Azure.
Международная компания Tata Elxsi, занимающаяся проектированием и предоставлением технологических услуг, интегрировала свою платформу OTT SaaS TEPlay в Azure Media Services для предоставления OTT-контента из облака. Tata Elxsi также перенесла в Microsoft Azure решение для мониторинга качества взаимодействия (QoE) Falcon Eye, предоставляющее аналитику и метрики для принятия решений.
Verizon Media делает свою платформу потокового вещания доступной на Azure в качестве бета-версии. Verizon Media Platform — управляемое OTT-решение корпоративного уровня, включающее DRM, вставку рекламы, индивидуальные персонализированные сеансы, динамическую замену контента и доставку видео. Интеграция упрощает рабочие процессы, глобальную поддержку и масштабирование и открывает доступ к ряду уникальных возможностей, имеющихся в Azure.