Агентство Лангуст [переход на главную] Langust

10/02/2020 Блеск и нищета машинного перевода
Впервые опубликовано на сайте TopTR

На сайте TopTR была опубликована авторская заметка о машинном переводе купить программы компании SDL Language Technologies.

Ниже материалы заметки приведены полностью.

«Одним из главных факторов, влияющих на становление „университета будущего“, является внедрение в образовательный процесс технологий искусственного интеллекта и, прежде всего, машинного перевода. Он сравняется, да уже сравнялся с переводом, выполненным человеком». ©Ректор РАНХиГС Владимир Мау

«Цифровизация очень скоро освободит нас от переводов. Благодаря использованию нейронно-сетевых технологий, качество переводов буквально от месяца к месяцу существенно улучшается. Функция запоминания позволяет машине выбрать из большого числа вариантов тот перевод, который наиболее близок к правильному. Сейчас это становится реальным. Естественно-научные статьи уже можно не переводить. Нажали кнопку - автомат выдаёт перевод». © Академик, вице-президент РАН Алексей Хохлов

есть ряд (довольно ограниченный) областей применения, в которых машинный перевод вполне справляется

И это ещё не самое интересное, что можно услышать про машинный перевод (machine translation, MT) - особенно от тех, кто, как вышеназванные лица, ничего не смыслит в этом вопросе. На Западе так и вообще почти всех уже убедили, что МТ - это «стильно, модно, молодёжно», и не пользоваться им - признак отсталости. Но как обстоят дела на самом деле?

Над машинным переводом учёные и программисты бьются лет семьдесят. При этом, особенно в последние годы, направляемые на решение этой задачи ресурсы чудовищно превышают её объективную важность. От оплаты труда «белковых» переводчиков ещё ни одна фирма не разорилась, более того - за исключением контор типа AliExpress такие затраты редко превышают доли процента в общих расходах предприятия. Но по-прежнему как грибы после дождя растут новые движки машинного перевода. Пришло время задать простой вопрос - «зачем?»

Разумеется, есть ряд (довольно ограниченный) областей применения, в которых МТ вполне справляется. Скажем, можно настроить систему на основе правил, и она будет практически безошибочно переводить стандартные тексты типа сертификатов, личных документов, типовых договоров и пр. Аналогично можно натренировать нейронную сеть на корпусе исходных и переведённых текстов и получать вполне приличные результаты при переводе аналогичных текстов. Это - вполне оправданные области применения МТ. Однако зверь зачем-то вырвался из клетки и полез решать несвойственные ему задачи - МТ сегодня пихают везде. Качество, разумеется получается катастрофическим. Понимая это, апологеты МТ на пару с дефективными эффективными менеджерами выдвинули концепцию постредактирования машинного перевода (РМЕТ). Мол, МТ уже всё сделал на 90%, а живому переводчику там «только чуть подправить». Ну и платить такому пока ещё живому переводчику (долго с таким заработком он точно не протянет), соответственно, надо процентов 10…15 от ставки за перевод.

Сравним рабочий процесс обычного письменного перевода и постредактирования.

Укрупнённые этапы перевода:

  1. Прочитать и осмыслить исходный текст;

  2. При необходимости обратиться к справочной информации, словарям, глоссариям, «помощи зала»…;

  3. Записать перевод.

Укрупнённые этапы РЕМТ:

  1. Прочитать исходный текст;

  2. При необходимости обратиться к справочной информации, словарям, глоссариям, «помощи зала»…;

  3. Сформировать вариант перевода;

  4. Сравнить его с тем, что насочинял МТ;

  5. Внести соответствующие изменения в перевод.

Число действий увеличивается практически вдвое. Соответственно, никакого прироста производительности РЕМТ, если делать его качественно, дать не может. Перевод «с нуля» человеком оказывается быстрее и эффективнее. Об этом же свидетельствуют и отзывы коллег: на РЕМТ уходит на 20…60 % времени больше, чем на «просто перевод». То есть с точки зрения переводчика овчинка совершенно не стоит выделки. Однако вот с точки зрения менеджера БП или заказчика ситуация получается просто шикарная: человек работает в 1,5 раза интенсивнее при снижении оплаты на 60…80%! Рабовладельческий строй отдыхает! Ну и простой вопрос: а насколько качественно бедный переводчик будет делать РЕМТ на таких условиях? Ответ очевиден.

А теперь самое главное. Готовы? Провозглашаю новый принцип: «МТ по любой технологии НИКОГДА не сможет правильно переводить специализированные тексты». И это не вопрос алгоритмов купить книги по разработке программного обеспечения, Big Data, обучения нейронных сетей… Это принципиальная невозможность - такая же, как невозможность постройки вечного двигателя.

Доказательство принципа:

Специализированный перевод не может быть текстоцентричным. Для правильного понимания смысла текста необходимо привлекать огромные объёмы дополнительной информации, причём чаще всего представленной в графическом виде, вообще не поддающемся машинному анализу. В самом исходном тексте, как правило, содержится не более 20…30% всей требуемой для перевода информации. Кроме того, исходный текст очень часто содержит грубые ошибки, исправлять которые - прямая обязанность переводчика. На это МТ, разумеется, также не способен.

И это принципиально и никак не изменится от совершенствования технологий МТ. Любая такая технология работает только с исходным текстом. МТ не может заглянуть в иллюстрацию к научной статье по теме, чтобы понять, как надо переводить. Ничего понять он, кстати, тоже не может.

решение загадки про V-образную траекторию

Рассмотрим пример. Вроде бы элементарный исходник, речь о колёсном погрузчике:

Less fuel is consumed in the use of V shape loading.

Как справились движки машинного перевода?

DeepL:

При использовании нагрузки V-образной формы расходуется меньше топлива.

GT:

Меньше топлива расходуется при использовании V-образной загрузки.

Яндекс.Переводчик:

Меньше топлива потребляется при использовании V-образной загрузки.

Все три варианта - гладкие, грамматически верные… и абсолютно бессмысленные. Потому как из текста (спасибо, дорогой автор!) совершенно невозможно понять, что имеется ввиду под «V shape loading». А вот если погуглить статьи на эту тему и посмотреть иллюстрации, то всё становится на свои места. И правильный перевод будет «загрузка самосвала с движением колёсного погрузчика по V-образной траектории». И никакой нейронной сетью его выловить невозможно в принципе - он не в тексте, он в картинках, а картинка к тому же не в этом тексте, а совсем в другом. И это очень частое явление в техническом переводе, кстати, уже не говоря про аудиовизуальный, где видеоряд имеет абсолютный приоритет.

Поэтому применение МТ в специализированных видах перевода (технический, юридический, аудиовизуальный и не дай бог медицинский) - опасная глупость. На выходе будет красивая, гладкая, складная ахинея.

Резюме:

  1. Область применения любого МТ сильно ограничена.

  2. Переводить специализированные тексты МТ не способен в принципе - ни сегодня, ни через сто лет.

  3. Скармливание специализированных текстов МТ - опасная глупость, как и РЕМТ.

© Троицкий Дмитрий Игоревич - руководитель и владелец агентства переводов и разработки программного обеспечения TTS

Впервые опубликовано на сайте TopTR

← Вернуться
хостинг для сайтов © Langust Agency 1999-2020, ссылка на сайт обязательна