Исследователи Яндекса представили новый метод оценки и улучшения машинного перевода

Исследователи Яндекса разработали новый метод оценки качества машинного перевода. Разработку можно использовать для совершенствования моделей, которые уже переводят тексты довольно точно, но делают это не всегда естественно. Например, в неформальном диалоге модель может перевести sorry, my bad как «приношу извинения, это моя вина» вместо «извини, ошиблась». Пользователь заметит, что нейросеть выбрала излишне официальный тон, но существующие системы оценки перевода такие ошибки игнорируют. Новый метод помогает обращать внимание нейросетей на такие недочёты.

Новая система оценки Яндекса называется RATE (Refined Assessment for Translation Evaluation — улучшенная метрика для оценки перевода). Она не используется напрямую для дообучения моделей перевода. Но RATE позволяет с высокой точностью оценить, где именно современные модели ошибаются и что нужно улучшить, чтобы их переводы стали точнее и естественнее для пользователя.

Разработка получила мировое признание в академическом сообществе: статью о RATE представили на международной конференции по машинному обучению EMNLP 2025. Среди других участников конференции — Microsoft Research, Google Research, OpenAI, Anthropic, Amazon, Baidu, Alibaba, Huawei, Samsung Research, NVIDIA Research, Intel Labs, IBM Research, Bloomberg, Adobe Research, Qualcomm Research.

В отличие от других метрик, RATE оценивает перевод по трём главным для пользователя критериям: точность передачи смысла, естественность языка и соответствие стилю оригинала. Это позволяет использовать метод для любых типов текстов. Например, с его помощью в новостях можно проверить точность передачи фактов, в постах соцсетей — выявить чрезмерную формальность фраз, а в художественных текстах — оценить стиль и плавность речи. RATE не только отмечает саму ошибку, но и оценивает её значимость — от небольших неточностей до сильных искажений.

Сравнение на данных крупнейшего международного конкурса WMT показало, что RATE выявляет в семь раз больше ошибок, чем другие методы оценки — MQM (Multidimensional Quality Metrics — многомерные показатели качества) и ESA (Error Span Annotation — аннотация диапазона ошибок). Результаты эксперимента оценивали высококвалифицированные ИИ-тренеры. Сравнение доказывает, что другие метрики не обнаруживают множество недочётов в переводах нейросетей, которые замечают пользователи.

Эксперимент показал: современные модели машинного перевода достигли значительного прогресса в точности. При этом эталоном естественности и плавности речи по-прежнему остаётся человеческий перевод, хотя большая языковая модель Яндекса уже приблизилась к этому уровню, опередив такие модели, как Claude-3.5 и GPT-4.

Екатерина Еникеева,
руководитель команды оценки качества перевода

Когда мы работали с другими методами, нам не хватало детализации. MQM слишком сложный, а ESA замечает только грубые ошибки. Эти метрики помогают проверить точность, но не позволяют оценить, насколько перевод получается естественным. А именно это сегодня стало главным критерием для пользователя в восприятии перевода. RATE позволяет оценить и точность, и естественность перевода, даёт более полную картину его качества и может подсказать разработчикам, как развивать модель для улучшения перевода.

Яндекс уже использует RATE для улучшения своих моделей, адаптируя их переводы под разные сценарии — от деловой переписки до неформального общения. RATE также помогает Яндексу создавать новые алгоритмы, ориентированные на живую человеческую речь, а не только на формальные критерии.



Контакты:

Пресс-служба компании «Яндекс»
Варвара Рудич, Елена Тарасова
Тел.:  +7 495 739–70–00
Электронная почта:  pr@yandex-team.ru


Источник: Яндекс