Google Translate vs. ChatGPT vs. Homo Sapiens: кто кого?
Привет, Хабр! It«s Ivan Chaplygin again. На прошлой неделе в аккаунте КРОК вышел последний эпизод звездных войн сериала под названием отчет Deloitte «Технологические тренды 2024», с переводом которого помогали ребята и девчата из отдела переводов КРОК, работающие под моим руководством.
Сейчас столько разговоров про машинные движки и искусственный интеллект, которые переводят совершенно замечательно, и тем не менее после таких мудреных нарративов, как отчет Deloitte, в очередной раз у меня возникло ощущение, что пока тексты пишут люди, переводить их тоже будут люди. В итоге я решил провести эксперимент и посмотреть, как с отдельными пассажами справятся Google Translate и ChatGPT, и сравнить их результат с тем, что попало в итоговый перевод. За конкретными примерами добро пожаловать под кат.
Недавно после устного перевода в офисе заказчика коллега спросила, когда я успел выучить терминологию и откуда знаю контекст — без чего довольно сложно адекватно переводить разговоры на узкоспециализированные темы. В ответ я просто сказал, что перевожу на проекте уже пару лет, да еще перевожу в КРОК с 2010 года. Как вы понимаете, за это время много чего было, и мне есть с чем сравнивать. Так вот с полной уверенностью и ответственностью (хотя откуда им у меня взяться) заявляю, что отчет Deloitte относится к особой категории текстов, которые моя коллега лет десять назад довольно точно охарактеризовала как «техномаркетинг».
Техномаркетинг по сути есть гибрид технического и маркетингового текста. Он явно продающий (или, как минимум, убеждающий читателя в чем-то). Он (в смысле текст) явно стремится вам понравится и вызвать некую эмоцию, в идеале положительную, но вместе с тем в нем куча сложной технической информации. Встречая подобное на своем тернистом пути, переводчик должен перевести сие корректно, чтобы была понятна физика процессов, кто на ком стоял и проч., и при этом должен перевести красиво, чтобы получившийся русский текст было приятно читать.
Отчет Deloitte — классический случай техномаркетинга, и, как водится в таких кейсах, буквальный или дословный перевод здесь работает далеко не всегда. Переводчик сначала понимает и вычленяет из повествования общий смысл и потом передает его уже совершенно другими словами и средствами выразительности. У меня, конечно, не столь богатое воображение, и тем не менее я с трудом представляю, какие алгоритмы должны быть у движка машинного перевода или ИИ, чтобы он мог адекватно передать такое. Однако хватит растекаться мыслью по древу, давайте рассмотрим пару-тройку примеров.
Пример 1. Не словарем единым
Начнем с чего-нибудь относительно простого. Итак, далее везде сначала предложение из английского отчета, а потом его перевод всеми участниками нашего эксперимента.
Deloitte: Cloud services, meanwhile, can help bring much-needed scale, but may become cost-prohibitive.
Google Translate: Между тем облачные сервисы могут помочь обеспечить столь необходимый масштаб, но могут оказаться слишком затратными.
ChatGPT: Облачные услуги, тем временем, могут помочь обеспечить необходимый масштаб, но могут стать экономически невыгодными.
Сразу оговорюсь, что терминаторы в нашем эксперименте чувствуют себя довольно неплохо и могут существенно облегчить жизнь переводчику-человеку. Но обо всем по порядку. В первом примере, на мой взгляд, два проблемных места: «must-needed scale» и «cost-prohibitive».
Оба наши терминатора перевели «scale» как «масштаб», что вполне понятно и предсказуемо. Для «cost-prohibitive» вариант ChatGPT «экономически невыгодные», наверное, ближе к сути, но оба по-русски читаются не очень: хоть затратные сервисы, хоть экономически невыгодные сервисы. Кроме того, обе машинные версии вслед за оригиналом два раза воспроизвели глагол «могут», что в русском смотрится избыточно, а у нас на минуточку «красивый-продающий» текст.
Суть в принципе улавливается. Надо наращивать объемы производства, то бишь масштабироваться, а своих мощностей не хватает. Строить очередной ЦОД долго, да и дорого. Вариант — арендовать мощности в облаке, но и это встанет в копеечку.
Homo Sapiens: Облачные сервисы тем временем могут дать столь необходимые мощности, но стоят заоблачных денег.
Пример 2. Приложения и в Африке приложения, но это не точно
Продолжаем экспериментировать…
Deloitte: Augmented and virtual reality for consumer applications have garnered a lot of attention, but these technologies are making their biggest impact in industrial settings.
Google Translate: Дополненная и виртуальная реальность для потребительских приложений привлекли большое внимание, но наибольшее влияние эти технологии оказывают в промышленных условиях.
ChatGPT: Дополненная и виртуальная реальность для потребительских приложений привлекают много внимания, но эти технологии оказывают свое самое значительное влияние в промышленной сфере.
Оба варианта практически равнозначны, и суть в принципе передана корректно, но дьявол, как всегда, в деталях. Если в оригинале дублирование актора («Augmented and virtual reality» и потом опять «these technologies») смотрится еще ничего, то насколько это хорошо в русском тексте, я бы поспорил. «Industrial settings» можно перевести просто как промышленность, что и сделал ChatGPT, но тогда у нас есть «технологии» как актор и два их потребителя: промышленность и… потребительские приложения? Смотрится странно, ведь не сами же приложения потребляют VR, а пользователи, которые эти приложения используют. В результате «consumer applications» из «потребительских приложений» могут превратиться в «сценарии использования обывателями» или же, как мы в итоге и поступили в переводе, «applications» можно просто удалить, сказав, что «технологии… популярны среди обычных пользователей». Дублирование актора, конечно, тоже пошло под нож.
Homo Sapiens: Технологии дополненной и виртуальной реальности завоевывают популярность среди обычных пользователей, но все же наибольшее влияние оказывают на промышленность.
Пример 3. Актор всегда один, это сказал фараон…
Немного синтаксических трансформаций вам в ленту…
Deloitte: Companies are using the industrial metaverse to power things such as digital twins, spatial simulation, augmented work instructions, and collaborative digital spaces that make factories and businesses safer and more efficient.
Google Translate: Компании используют промышленную метавселенную для создания таких вещей, как цифровые двойники, пространственное моделирование, расширенные рабочие инструкции и совместные цифровые пространства, которые делают заводы и предприятия более безопасными и эффективными.
ChatGPT: Компании используют индустриальный метавселенную для создания цифровых двойников, пространственных симуляций, дополненных рабочих инструкций и совместных цифровых пространств, которые делают фабрики и бизнес более безопасными и эффективными.
Примерно сопоставимые переводы. Явного победителя не наблюдается. Google зачем-то перевел в лоб «таких вещей как», а ChatGPT забыл согласовать прилагательное и существительное «индустриальный метавселенную», но все мы люди, всякое бывает. «Заводы и предприятия» смотрятся лучше, чем «фабрики и бизнес», хотя и это несущественно. Оба терминатора поперхнулись на прилагательном «augmented», потому что ни «расширенные», ни даже «дополненные» имхо не отражают суть — лучше было бы «рабочие инструкции дополненной реальности» или «рабочие инструкции с функцией дополненной реальности».
А теперь немного синтаксиса. Вообще одно из преимуществ человека перед машиной — умение не идти за оригиналом и оптимизировать синтаксис, исходя из норм целевого языка. Я бы назвал это важнейшим преимуществом №2. А преимущество человека №1 — умение работать с исходным текстом и извлекать заложенный в нем смысл, что часто квест еще тот. Итак, возвращаемся к нашему примеру.
У нас опять два действующих лица или актора: сначала «компании», а в конце «заводы и предприятия» — человеку очевидно, что речь про одно и то же, так почему бы не переставить «заводы и предприятия» в начало и не удалить «компании», следуя еще библейскому принципу «и последний станет первым».
Второй момент «используют промышленную метавселенную для создания». Носитель русского языка, скорее, скажет «в промышленной метавселенной компании создают», и так одним бесполезным глаголом станет меньше (мы же тут по красоте все делаем, помните?)
Если убрать актора в конце и оставить его только в начале, провисает глубокомысленная фраза «делают… более безопасными и эффективными». Вообще глагол «делают» тут не от хорошей жизни, так что множим его на ноль и ищем нового хозяина для двух бесхозных прилагательных.
Homo Sapiens: В промышленной метавселенной заводы и коммерческие компании создают цифровых двойников, пространственные модели, рабочие инструкции дополненной реальности, а также цифровое пространство для продуктивной и безопасной совместной работы.
Пример 4. Когда все совсем не то, чем кажется
Настал черед тяжелой артиллерии…
Deloitte: Eventually, autonomous machines, advanced networking, and even simpler devices can lead to breakthrough spatial web applications, such as remote surgeries or entire factory floors being overseen by a single well-connected worker.
Google Translate: В конечном итоге автономные машины, передовые сетевые технологии и даже более простые устройства могут привести к появлению революционных пространственных веб-приложений, таких как удаленные хирургические операции или целые заводские цеха, контролируемые одним работником с хорошими связями.
ChatGPT: В конечном итоге автономные машины, современные сети и даже более простые устройства могут привести к прорывным приложениям пространственной сети, таким как дистанционные операции или целые производственные площади, находящиеся под контролем одного хорошо связанного работника.
Справедливости ради стоит сказать, что не каждый человек способен адекватно перевести это предложение, что уж на искусственный интеллект пенять. Однако эксперимент есть эксперимент, и давайте разбираться в нюансах.
Первая проблема в обоих вариантах связана с дословным переводом фразы «even simpler devices» как «даже более простые устройства». Формально все правильно, но дело в том, что фраза находится не в вакууме, а в контексте: «современные сети и даже более простые устройства», и получается, что есть «сети», а «устройства» даже проще. Кого проще? Сетей!
Второе не читабельное обеими терминаторами место «spatial web applications». Ни «пространственные веб-приложения», ни «приложения пространственной сети» тут не подходят. Обычно «application» переводится как «приложение», но в данном случае речь про «сценарий использования». Есть у нас пространственная сеть, и мы начинаем ее использовать совершенно не так, как раньше, например, помогая хирургу проводить операции дистанционно.
Напоследок самое веселое — «well-connected worker». Грех смеяться над коллегами по цеху, пусть они и не из плоти и крови, но Google Translate и ChatGPT отожгли на славу. «Работник с хорошими связями» — тот, кто устроился по блату, потому что его папа сам директор завода и нашел сынку теплое местечко. А фраза «хорошо связанный работник» попахивает криминалом: связали, кляп в рот, выкуп мелкими, немечеными купюрами… На самом деле «well-connected worker» — это работник с хорошей связью, т.е. у него стабильный доступ в интернет или телефон нормально ловит сигнал из-за хорошего покрытия территории завода вышками мобильного оператора.
Homo Sapiens: В конечном счете наличие автономных машин, усовершенствованное сетевое взаимодействие и создание еще более простых устройств позволит совершенно по-новому использовать пространственные сети, например, проводить хирургические операции удаленно или сделать так, чтобы при наличии хорошей связи один сотрудник мог управлять производственными цехами целого предприятия.
Пример 5. Когда надо немного дифференциатор поправить
Эксперимент можно продолжать бесконечно, но пора и честь знать. Поэтому на очереди пример №5, он же последний:
Deloitte: As technology has become a bigger differentiator for enterprises, businesses have built ever-more computationally complex workloads.
Google Translate: Поскольку технологии стали для предприятий все более важным фактором, им приходится создавать все более сложные в вычислительном отношении рабочие нагрузки.
ChatGPT: Поскольку технологии стали более значимым дифференциатором для предприятий, компании создают все более сложные вычислительные нагрузки.
Терминологически «рабочие нагрузки» лучше «вычислительных», а «фактор» лучше «значимого дифференциатора» — как-то от прославленного ChatGPT ожидаешь чего-то большего. В целом слова стоят на своих местах, вот только мне, как читателю, не очень понятна причинно-следственная связь. Окей, технологии — важный фактор, но почему при этом надо делать более сложные вычисления? Суть же в другом: чем больше компании используют технологии и чем критичнее становятся технологии для бизнеса, тем сложнее и рабочие нагрузки, которые компании создают.
Просто раньше у нас был на всю компанию один внешний жесткий диск на 500 МБ, а теперь распределенная система хранения данных на десятки экзабайт, способная работать с большими данными.
Теперь, когда смысл ясен, осталось, как говорят коллеги-маркетологи, правильно «упаковать» наше предложение, чтобы глаз радовало, например, так:
Homo Sapiens: Чем технологичнее становятся компании, тем сложнее их рабочие нагрузки.
Заключение
Современные технологии автоматического перевода (Google Translate и аналоги, а также ChatGPT и аналоги) — хорошее подспорье в работе переводчика-человека. Они неплохо передают общие смысловые вещи, но подчас теряются в нетривиальных деталях. Использовать их можно и нужно, коль скоро это значительно ускоряет работу и, как следствие, повышает общую производительность отдельного переводчика. Есть, правда, риски утечки данных, поэтому при переводе конфиденциальной информации лучше онлайн-сервисами не пользоваться, но это уже тема для другого поста.
Вместе с тем переводчик-человек никуда не уходит, потому что только он способен как творчески подойти к осмыслению исходного текста и извлечению из него смысла, так и творчески подойти к созданию текста на другом языке, трансформируя синтаксис, отдельные фразы и слова под потребности читателя.
Аналогичные эксперименты я провожу в телеграм-канале «X-ren переведешь», потому что просто очень люблю переводить то, что, на первый, да и на второй взгляд, не переводится вовсе. Как говорится, не проходите мимо.