Потратил 1 000 000 $, чтобы сделать свой переводчик. Продолжение истории

Начало этой истории тут:

https://habr.com/ru/post/492524/

Вступление

Я занимаюсь переводчиками с 2012 года, и эта тема выбрана не случайно. Еще тогда было замечено, насколько сильно переводы могут влиять на показатели бизнеса. В нашем случае поддержка всего 15 языков вместо одного позволила увеличить количество скачиваний мобильных приложений до 35 миллионов без затрат на рекламу. Никакие другие действия не давали такой пользы с учетом потраченного времени и денег. И это стало основной причиной того, почему я выбрал это направление.

После первой статьи мне написало несколько сотен человек. Надеюсь, ответил всем. В основном были вопросы, как заработать на мобильных приложениях, как уйти из найма в свой бизнес и т.д. Через год несколько человек сказали, что их жизнь очень изменилась в лучшую сторону. Значит, советы помогли и время было потрачено c пользой.

Если выделить самый главный совет, то он будет следующий:

Перед тем как создавать свой большой проект (бизнес), найдите фирму или людей, у которых можно набраться опыта в интересующей вас сфере. Соглашайтесь на меньшую ЗП или вообще бесплатно. Главное — быстро получить нужный вам опыт. Нужны реальные ситуации с реальными людьми, проблемами и задачами. По книгам и курсам — не научиться. В идеале получить опыт сразу нескольких направлений (разработка, маркетинг, управление). Для этого подойдут небольшие продуктовые компании до 10–15 человек. Только смотрите, чтобы там были профессионалы с разной специализацией.

Найти успешную фирму, где у вас будет возможность работать вплотную вместе с опытным руководителем, смотреть, как принимаются решения и задавать интересующие вас вопросы, — нелегко. Скорее всего, потребуется сменить несколько мест и потратить пару лет. Главное — быстро уходить, если видите, что не растете как специалист.

Учитесь на чужих ошибках. Учиться на своих — очень долго. В какой-то момент просто не хватит мотивации. Поэтому подбирайте место работы очень тщательно.

Самый главный вывод, который я понял за 15 лет в IT, что основа любого успешного дела — люди. Не идея, не рынок, не технология, а именно команда. Все равно, какая на рынке конкуренция. Хорошая команда сделает проект любой сложности. Даже если ошибется вначале, то в конце вырулит к цели.

 Своей главной проблемой считаю, что я стал «публичным» очень поздно. Следовало на старте писать статьи о проекте и выступать на меприятиях, давать интервью. Не нужно было отдавать разработку на аутсорс и фрилансеров, а сразу собирать свою команду профессионалов. Чтобы набрать таких людей, очень важен личный пример. Опытные люди хотят работать с такими же.

Статьи о проекте работают очень круто для поиска нужных людей. Через вакансии и рекрутеров я бы никогда их не нашел. Правильно поставленные процессы и команда даже из 10 экспертов могут творить чудеса.

А теперь — продолжение истории…

Начало 2020 года.

В начале 2020 года мы сильно продвинулись в качестве перевода. Если ранее на каждую языковую пару в датасете было в среднем по 7 миллионов строк, то теперь стали использовать датасеты по 30 миллионов предложений.

Ранее для исправления ошибок в переводе в наши приложения была добавлена функция «Предложить правильный перевод». Через год мы ее отключили из-за того, что люди начали туда спамить и предлагать на исправление полный бред. Проанализировав тысячи записей, я увидел, что мало чего оказалось полезным. Также был сделан кеш. Хорошо работает на 1 и 2 словных фразах и позволяет экономить где-то 30% от всех запросов.

У нас в аренде было 20 dedicated серверов с одной видеокартой GTX 1080 в каждом. А дома для теста стоял собранный ПК с 2 x RTX 2080 Ti, который использовался для тестов и был в среднем в 3 раза быстрей чем сервер с GTX 1080.

С увеличением датасетов мы увеличили кол-во слоев, RNN и других параметров нейронной сети. Нужно было добиться определенного критерия качества перевода, по которому пользователи не будут уходит к конкурентам.

И тут возникла одна проблема. По нашим расчетам, с текущими параметрами на тренировку 200 языковых пар потребуется 28 лет. Даже учитывая все сервера, которые у нас были, это никуда не годилось. Видеокарты GTX 1080 были очень медленные для наших задач, а брать дорогие V100 не позволяли финансы. 

В прошлой статье я говорил про планы на сервер DGX-2 от Nvidia c 2 petaflops (FP16) для тренировок. Я не смог взять DGX-2 в аренду из-за того, что фирма, на которую будет договор лизинга, должна быть только в США, а у меня фирма на Кипре и поэтому не получилось.

В течение года мы участвовали в разных стартап-конкурсах в надежде выиграть бесплатные кредиты от спонсоров. И однажды к нам повернулась удача. Через пару месяцев мы выиграли AWS Startup Challenge и получили 100 000 бесплатных кредитов, которых можно было потратить на тренировки моделей. Вместо серверов с 1 x GTX 1080 мы стали брать 8 x Nvidia V100, C 28 лет время тренировки сократилось до 2 месяцев, за которые мы и перетренировали наши модели с лучшим качеством. Сейчас, чтобы развернуть все 100 языков, используется 9 серверов с одной видеокартой Nvidia T4 в каждом. Это позволяет нам поддерживать 500 000 пользователей в месяц c хорошим уровнем качества. 

Параллельно я смотрел, что делают конкуренты, и следил за рынком. Начало появляться еще больше проектов в области машинного перевода типа перевода конференций в реальном времени, перевода видео-роликов и подкастов. Компании, которые долго специализировались на переводе только человеком, стали вкладывать в проекты перевода алгоритмами. Основой послужил экономический эффект от локализации.

Постоянное улучшение качества машинного перевода позволило во много раз сократить затраты на перевод человеком, ведь в переводах основной расход — это зарплата людей, которые владеют иностранными языками. Чем лучше переводит компьютер, тем меньше времени человеку нужно исправлять за ним ошибки. Развитие технологий уже сейчас позволило в некоторых случаях полностью заменить человеческий перевод машинным.

1 сентября 2020 года ведущий мировой научный журнал Nature опубликовал сообщение о том, что машинный перевод уже достиг качества человеческого в англо-чешских новостях.

Несмотря на огромный спрос на переводы, использование человеского труда для этой задачи все еще стоит дорого и занимает много времени. Перевод одного слова человеком стоит в среднем 5 — 8 центов. Чем дешевле цена перевода человеком, тем больше компании готовы вкладывать в локализацию. Используя все более качественный машинный перевод и CAT инструменты, с каждым годом цена перевода слова падает, а скорость поставки локализованных решений растет. Все это рано или поздно приведет к взрывному росту рынка переводов. На картинке ниже я схематично показал эту идею.

Выход на рынок B2B

По статистике, каждый год более 1 миллиарда человек ищут в интернете решения, связанные с переводами. Каждый день увеличивается количество данных на разных языках, а доля английского языка в интернете сейчас сократилась до 25%.

До 2020 года наш фокус был на мобильные приложения для перевода. В последнее время Appstore Search Optimisation (ASO) для мобильных приложений (на котором удалось собрать 40 миллионов скачиваний и заработать первый миллион $) стал работать очень плохо. Подбор ключевиков в Apple Appstore без закупки платных установок стал не эффективен. А привлечение пользователей через закупку трафика стало очень дорогим.

В конце 2020 годы мы решили попробовать рынок B2B. Расчет был на то, что любому международному бизнесу нужна функция перевода в том или ином виде. Это может быть перевод документов, сайта, многоязыковая поддержка клиентов, анализ конкурентов и другое.

Из тысячи вопросов, которые мне задали за последние пять лет, примерно 950 из них были «Чем вы лучше Google». Я пробовал давать разные ответы, но сейчас стараюсь отвечать коротко — приватность данных, функциональность, цена, качество сервиса поддержки.

Если вы студент или турист и вам нужно перевести небольшую статью для личных целей, то можно использовать бесплатные сервисы типа Google или Microsoft. Но если вы компания, то переводить письма клиентов, накладные, справки и прочие внутренние документы через бесплатные онлайн-сервисы может быть небезопасно, так как такие компании собирают ваши данные, чтобы потом продать их рекламодателям. Кроме того, переводы больших объемов текста через Google API будут стоить очень дорого.

Для таких случае мы сделали возможность устанавливать переводчик в корпоративную сеть и переводить текст и файлы без доступа в интернет. Причем все происходит очень быстро и с сохранением форматирования. Во всех решениях доступны все языки, что есть у Google, даже больше.

Первым продуктом стал локальный сервер перевода. Он позволяет переводить текcт, HTML (сайты), файлы на 120 языков без ограничений. Мы потратили достаточно времени на оптимизацию скорости. Теперь 1 миллиард символов текста можно перевести за сутки на одной видеокарте Nvidia GTX 1080. Также, в отличие от Cloud API (Google, Microsoft итд), все ваши данные остаются у вас, ведь все работает без интернета.

Как раз именно приватность стала основой для нашей первой B2B интеграции с браузером Vivaldi.

image-loader.svg

Сервер перевода работает под Ubuntu и поставляется как докер образ. После запуска становиться доступно REST API, которое можно интегрировать в ваш проект. 

Например, чтобы развернуть 15 языков, нужно видеокарта с 16GB видеопамяти, приблизительно 1GB памяти на каждый язык, 4 ядра CPU, 16 GB оперативки и 100 GB HDD.

Видеокарта Nvidia RTX 8000 с 48GB может загрузить в районе 60 языков. Можно взять 4 видеокарты на 1 сервер. Каждая видеокарта будет обрабатывать свой набор языков. Главное — количество видеопамяти. Перевод может работать и на CPU, только скорость будет в 10 раз медленнее.

Функция перевода web-страниц была добавлена не только в десктоп, но и в мобильную версию браузера.

После браузера Vivaldi мы интегрировали сервер в медицинскую библиотеку. Клиент хотел сэкономить на HDD и не хранить переведенные страницы в БД. Поэтому переводы веб-страниц происходят динамически по мере того как пользователь ходит по сайту. 

У меня были мысли использовать сервер, чтобы создавать клоны сайтов типа Stackoverflow, Quora и другие зарубежные проекты на разные языки, и потом зарабатывать на рекламе. Но как-то не дошли руки. Хотя периодически вижу клоны зарубежных сайтов, сделанных таким образом.

Третим проектом, где стал использоваться сервер, стал большой e-commerce сайт в азиатском регионе. Нужен был автоматический перевод описаний товаров на 87 языков. Потом продали сервер агенству по лидогенерации, аналитике, плагину для перевода вебсайтов, заводу электроники и другим. Вообще, сервер будет полезен везде, где много контента и международная аудитория.

Постепенно наш фокус сместился на решениях для бизнеса вместо мобильных приложений.

За несколько лет у нас часто спрашивали про функцию транскрипции речи (конвертации голоса в текст). Поэтому в сервер для перевода была добавлено распознавание речи на 20 языков. То есть, сервер может переводить текст, файлы, HTML и делать транскрипцию голоса в текста.

Сейчас сервер переводов — это наш флагманский продукт. В него вложили очень много времени и сил. Цена сервера перевода составляет от 2000 евро в год (в зависимости от количества языков и функций). Доступна бесплатная демо-версия сервера на 1 неделю.

Больше информации ПРО СЕРВЕР ЗДЕСЬ

После сервера мы сделали SDK на iOS, Android, Windows и Mac OS. Это позволяет подключить функцию офлайн перевода для мобильных и декстоп приложений как статическую библиотеку. Для этого сделали отдельные компактные модели языков (до 100 мб). Доступны те же 120 языков. Подойдет для приватных мессенджеров, браузеров, юридических и медицинских и других программ, где нужна защита данных.

Также стали предлагать Cloud API для перевода. Стоимость составляет от $3 за миллион символов, при том же количестве языков и сопоставимом качестве, что у Google. Цена зависит от объема. По умолчанию цена 5$ за миллион символов, что в 4 раза дешевле Google. Можем дать бесплатно до 20 млн символов для перевода для теста.

Ранее наши десктоп приложения под Windows и Mac переводили файлы только онлайн, теперь у нас появились отдельные сборки на несколько языков, которые работают полностью без интернета.

Напоследок

Сейчас в нашей команде 18 человек, и я доволен тем, что несмотря на все трудности, мы нашли эффективную бизнес-модель, которую сейчас и развиваем.

Всегда работает правило 10 тысяч часов. Если занимаешься любой деятельностью длительное время, то в данной сфере ты становишся профессионалом и у тебя начинает получаться. Главное — помнить про это и не опустить руки заранее. А лучше устроиться в компанию со сходным проектом и просто перенять положительный опыт. Так намного быстрее.

Ссылка на все B2B проекты, описанные в статье.

По всем вопросам пишите на info@lingvanex.com.

© Habrahabr.ru