Машинный перевод нейросетками

3488e9f187cdb614cb4edbd1da35ae8a.jpg

Меня немного удивила статья уважаемых специалистов по локализации, сравнивающая различные движки перевода. По-моему, и гугловский, и яндексовский переводчики, и даже DeepL полгода как списаны в утиль и представляют исключительно исторический интерес.

Перевожу в последнее время только нейросетями и часто даже при наивном подходе получаю нормальные результаты. Наивный подход — это зайти в ChatGPT и написать «Please translate `大型アプデ!セルフレジの導入で大富豪となったスーパーマーケット経営ゲーム` from Japanese to English».

Лучше, конечно, будет обогатить запрос и дать нейросетке возможность уточнить область поиска слов. Контекст скармливаю следующим путем:

  • Перечисляю термины и имена собственные, перевод которых мне нужен именно в определенном виде. Например говорю, что pitch accent надо переводить как «питч акцент», а не «музыкальное ударение».

  • Если надо перевести абзац литературного текста — скармливаю еще пяток абзацев, которые были рядом, заодно прибавляя преамубулу в духе «о чем произведение вообще», что «стиль автора напоминает нашего Чехова» и что «Танака в этом произведении вырос в неблагополучной семье и говорит как гопник».

  • Если надо перевести какие-то таблицы или менюшки или еще чего-то спископодобное — рассказываю, на что похоже приложение и какие у него есть аналоги.

  • Если для программки есть английский и испанский ручной перевод — можно скормить оба, точность итогового русского возрастет.

  • Еще можно привести кусок хорошо написанной статьи, в которой автор описывает какие-то действия с этим приложением.

Порой проявляется интересный эффект. Пишешь запрос на английском и просишь нагенерировать чего-то на японском. Читаешь — и понимаешь, что сгенерированный текст имеет какой-то… английский акцент, что ли. Как будто учитель японского говорит с учениками, а не носитель с носителем. Учебниковский японский получается. Проблема часто решается тем, что запросы тоже делаются на целевом языке. Причем можно и на корявом японском спросить (например с помощью DeepL’a полученным) — эффект все равно будет.

Нейроговорилки неплохо умеют стилизовать речь и играть в ролевые игры. Поэтому иногда вместо сказанных сухим тоном инструкций вроде «при ответе используй лексику шестилетнего ребенка» эффективнее представиться шестилетним ребенком, сказать электронному болвану, что он тоже шестилетний и переформулировать запрос так, как сформулировал бы его шестилетка.

Короче говоря, было бы интересно сравнить работу не этих устаревших движков, а нескольких нейронных сеток. Начать можно с беглого поиска в Google Scholar.

© Habrahabr.ru