Как мы сделали AI-интеграцию для одного из лидеров Международного общества сознания Кришны

ЗаказчикБхакти Викаша Свами — один из ведущих гуру организации, лично учился у Прабхупады, основателя конфессии. Проповедник постоянно читает лекции в разных странах, активно занимается своим YouTube-каналом.ЗадачаПомочь последователям гуру получить доступ к контенту в разных форматах. Разработать площадку для просмотра видео, автоматизировать транскрибацию лекций и реализовать поиск по слову внутри всех видео.

37d0c890a6d4f0238494f90792071e6b.jpg

Два года назад мы в Unistory разработали для Бхакти и его лекций отдельный сайт, мини-YouTube для последователей и учеников. Разработали все на Firebase, большой базе данных от Google, которая позволяет веб-сервисам и приложениям работать без бэкенда. Лекции в формате видео и аудио выходят на YouTube и собственной площадке в большом количестве. Сейчас там больше 120 тысяч подписчиков, загружено больше 2500 видео.

7c7dafeeb14824e7bdc1aad551acd493.jpg

Автоматизировать транскрибацию видео

Через два года после разработки площадки заказчик вернулся к нам с новой идеей: разместить на сайте расшифровки видеолекций. Оказалось, что значительная часть аудитории Бхакти предпочитает именно текстовый формат. Но транскрибировать сотни и тысячи лекций вручную — непосильный труд. Нашей задачей стала автоматизация этого процесса.

Как это сделать? Если вам пришло в голову слово «нейросети», — поздравляем, вы не ошиблись. Дальше в кейсе подробно рассказываем, как мы автоматизировали перевод из видео в текст, с какими нюансами, и почему наша технология лучше любого сервиса транскрибации.

86b03ca7dacd087701cbbe8501998d25.jpg

Провести интеграцию с Elasticsearch

Еще одна идея заказчика: помочь пользователям более точечно искать информацию на платформе. Типичный юзеркейс: последователь приходит на YouTube-канал, чтобы посмотреть, например, что его духовный учитель думает об отношениях в семейной паре. Поиск выдает ролики, и далеко не все из них релевантны запросу: некоторые про отношения с гуру или друзьями, другие — про взаимоотношения с Богом.

Еще одна проблема: даже если пользователь нашел нужное видео, оно может длиться два или три часа и содержать много мыслей на самые разные темы. Вместе с заказчиком мы решили помочь последователям Бхакти найти ответы на их вопросы.

d3fcc8a073bbdd902d129c44a92e901b.jpg

 Whisper AI и ChatGPT

Чтобы транскрибировать видео, мы решили использовать специализированную нейросеть Whisper AI. Искусственный интеллект хорошо справляется с задачей транскрибации, но итоговый текст, как правило, недостаточно презентабельный. Материал все равно требует ручной обработки, а в нашем случае из-за огромного количества видео это не представлялось возможным. Чтобы сделать качественный чистовик лекций вручную, пришлось бы загрузить несколько десятков сотрудников работой на месяц.

Чтобы обработать текст после транскрибации, мы реализовали алгоритм, который прогоняет расшифровку через ChatGPT. Результат — более качественная расшифровка лекции, стилистически выверенная и без ошибок.

Скрипт проводил обработку лекций в течение нескольких месяцев. Да, это долго —, но в тысячу раз быстрее и дешевле, чем делать вручную.

Возможность модерации

При обработке текста через ChatGPT все равно сохраняется вероятность ошибок, стилистических и фактических. Мы решили дать пользователям возможность указать на эти ошибки. Посетитель площадки может репортить о найденной ошибке администратору, который затем исправляет текст или отклоняет репорт. Сейчас заканчиваем работу над технической реализацией этой фичи.

eddaef690ab3603884fe1ba3e47a731a.jpg

Поиск по слову внутри видео

Мы превратили аудио и видео в текст, но перед нами стояла еще одна задача — помочь пользователям найти внутри лекций отдельные слова. В качестве решения мы выбрали Elasticsearch — инструмент, который позволяет искать данные в огромных датасетах.

Elasticsearch не может искать слово в аудио или видео, поэтому поиск на платформе происходит по расшифровкам лекций, которые мы автоматизировали на предыдущем этапе работ. Каждая расшифровка привязана к своей видео/аудио версии, поэтому Elasticsearch может найти, сколько раз в той или иной лекции упоминалось нужное пользователю слово.

В рамках UI мы разделили поиск на два варианта: обычный поиск и Deepsearch, поиск внутри лекций. Пользователь может выбрать, искать ему лекцию по названию или по словам, которые в ней упоминаются.

Результат и планы

У клиента было две задачи, и мы решили обе, полагаясь на AI-расшифровки текста. Пользователи площадки получили возможность читать лекции проповедника и точечно искать нужные видео на основе самого контента, а не только названия.

В ближайших планах — при запросе Deepsearch показывать точные тайминги, в которые Бхакти говорил искомое слово на видео. Тайминги также будут подтягиваться из текстовой версии.

***

Наши студия разработки встретила этого клиента на бирже фриланса Upwork. Я решил поделиться опытом со всеми желающими — раздаю в своем Телеграм-канале подробный гайд о том, как начать работать на этой международной бирже. Все, что надо сделать — подписаться и попросить гайд в комменте к публикации.

В ответ наш пиарщик вышлет вам в личку подробную инструкцию по Upwork, где вы узнаете, как:

  • Делать заказы на зарубежку и зарабатывать в долларах
  • Зарегистрироваться в обход блокировок и получить свой первый заказ
  • Прокачать свой профиль и выйти на жирные заказы
  • Отстроиться и победить конкурентов на площадке

Документ пригодится как студиям, так и фрилансерам. Будет полезно директорам агентств, дизайнерам и разработчикам.

Перейти на сайт

Полный текст статьи читайте на CMS Magazine