25/06/2010 Машина в поисках смысла

25/06/2010 Машина в поисках смысла
Впервые опубликовано на сайте журнала «Русский репортёр»

На сайте журнала «Русский репортёр» была опубликована статья о проблемах машинного перевода.

Ниже материал статьи приведён полностью.

Полвека назад кибернетики были уверены, что машины скоро научатся переводить Пушкина и Шекспира . Однако скоро не получилось. Машинные переводчики уже способны на многое. Но они до сих пор не умеют главного - понимать смысл того, что они переводят. Решая эту проблему, наука наталкивается на вечные вопросы: что такое язык, что такое жизнь и как мы ухитряемся понимать друг друга.

Большая аудитория РГГУ. На кафедре знаменитый лингвист Игорь Мельчук. Бывший советский учёный, а ныне канадский профессор специально приехал, чтобы прочитать лекцию с лаконичным названием «Смысл». За полтора часа огромная доска покрывается кружочками, стрелочками и прочими значками.

В конце лекции из зала раздаётся:

- Простите, так что же такое смысл?

Мельчук пожимает плечами и указывает на исписанную вдоль и поперёк доску:

- Как? Разве что-то не ясно? Вот это всё и есть смысл!..

Всё, что нужно - это взломать код

Эволюция машинного перевода - история того, как идея, казавшаяся поначалу очень простой, в процессе исполнения превращается в неподъёмную задачу. Что такое машинный переводчик? Да просто чёрный ящик, внутрь которого поступает русская фраза, а выходит английская - того же содержания. Если вы сами знаете иностранный язык, роль чёрного ящика выполняет ваша голова.

«У меня перед глазами текст, написанный по-русски, но я собираюсь сделать вид, что на самом деле он написан по-английски и закодирован при помощи довольно странных знаков. Всё, что мне нужно, - это взломать код, чтобы извлечь информацию», - писал в конце сороковых годов Уоррен Уивер, директор отделения естественных наук Рокфеллеровского фонда. С этой нехитрой мысли всё и началось. Перевод казался прелестной игрушкой, на которой можно было продемонстрировать мощь электронных технологий.

Оная демонстрация состоялась 7 января 1954 года и вошла в историю под названием Джорджтаунского эксперимента. Специалисты из одноимённого университета совместно с компанией IBM впервые в мире автоматически перевели 49 предложений с русского языка на английский. Научная общественность была потрясена. США, а за ними и многие другие кинулись финансировать соответствующие проекты. Но…

- Знаете, что такое Джорджтаунский эксперимент? - спрашивает один из создателей современной системы машинного перевода «Кросслейтор» Эдуард Клышинский. - Чистое жульничество. Представьте себе словарь из 250 слов и аналитический аппарат из 6 правил. Простейшие фразы, соответствующим образом составленные, вы переведёте как по маслу. Но возьмите словарь в 1000 слов. Это будет сложнее не в 4 раза. По мере увеличения словаря сложности будут нарастать экспоненциально. За каким-то порогом вы вообще не получите результата. Текста просто не будет.

Машина в Джорджтауне понятия не имела, где в предложении подлежащее, а где сказуемое. Напрочь не различала ни одной формы слова и ни одной части речи. Фразы составлялись так, чтобы достаточно было простых соответствий: «мама» - «mother». Собственно, в этом и состояло невинное кибернетическое жульничество.

Проклятый Джон и его игрушки

Спустя всего шесть лет после Джорджтаунского эксперимента машинный перевод был торжественно похоронен. Убила его простенькая фраза: «John was looking for his toy box. Finally he found it. The box was in the pen». Её правильный русский перевод звучит так: «Джон искал свою коробку с игрушками. Наконец он её нашёл. Коробка была в манеже».

Автор фразы, американский философ Иегошуа Бар-Хиллел, заявил, что для слова «pen» («ручка», но оно же и «детский манеж») ни один электронный переводчик никогда не сможет подобрать точный аналог на другом языке. Выбор между «ручкой» и «манежем» можно сделать, только имея определённую картину мира, которой у машины нет. По мнению Бар-Хиллела, этот факт закрывал тему электронного перевода навечно. Кстати, до сих пор ни один онлайн-переводчик перевести эту фразу не в состоянии. Мы проверяли.

Окончательно добила первые переводчики так называемая Чёрная книга машинного перевода - опубликованный в 1966 году доклад Комитета по прикладной лингвистике Национальной академии наук США. Группа экспертов констатировала принципиальную невозможность машинного перевода и советовала работы в этом направлении прикрыть. Что и было сделано.

Поймать муху на Луне

Чёрное десятилетие машинного перевода на Западе длилось с середины 60-х по середину 70-х. Россию от той же участи спас железный занавес. Более того, у нас для структурной лингвистики наступил «серебряный век». Разрабатывались собственные системы машинного перевода, открывались специализированные кафедры и лаборатории. Недаром один из персонажей «Попытки к бегству» братьев Стругацких напевал:

Воет ветер дальних странствий,
Раздаётся жуткий свист -
Это вышел в Подпространство
Структуральнейший лингвист.

Представитель языкознания встал вровень с космофизиками, олицетворяя собой технологическую утопию. В том же романе эта утопия показана в действии: с помощью «мнемокристалла» можно было запросто понимать даже язык инопланетянина.

Впрочем, действительность быстро возвращала на землю. Классическая лингвистика на тот момент почти ничего не могла предложить кибернетикам, кроме общих принципов. Никому и в голову не приходило составлять, допустим, точные перечни всех синтаксических конструкций, возможных на том или ином языке. А ведь тупой машине нужно было именно это. Кстати, тогда ЭВМ занимала несколько этажей, работала на перфокартах, а в очередь на час работы записывались примерно за месяц.

- В своё время у нас был такой тост: за мечту, которая никогда не сбывается, - говорит Эдуард Клышинский. - Понимаете, сделать переводчик - примерно то же самое, что поймать муху на той стороне Луны. Для этого надо туда прилететь, создать условия, чтобы муха могла там жить, потом поймать и привезти обратно.

По счастью, наука редко отказывается от Мечты. Так что мух на той стороне Луны учёные ещё половят.

- Хотя бы для того, чтобы на этой Луне порыбачить, - добавляет Клышинский.

Статистика вместо понимания

- Я представляю компанию «Яндекс», - скромно говорит юноша в скромной майке. - Я узнал, что еду на конференцию «Диалог», уже после того, как вышел из дома, поэтому прошу простить меня за внешний вид. Давайте переведу, что у меня написано на майке: «„Да брось ты свой компьютер, пойдём погуляем“, - говорит „Гугл“».

Молодой человек поворачивается спиной, и аудитория, состоящая из лингвистов и математиков, читает: «Fuck GOOGLe». Как много, однако, теряется при переводе!

- Я хочу сказать, что все решения исходят из конкретной задачи… - продолжает юноша.

На ежегодном «Диалоге», конференции по проблемам компьютерной лингвистики, молодой человек из «Яндекса» представляет коммерческие структуры. Его маечка на фоне клетчатых рубашек научных сотрудников напоминает о том, что за всё надо платить.

Именно конкретные задачи толкали машинный перевод вперёд, несмотря на все концептуальные преграды. Американским инженерам нужно было переводить тонны советской технической документации - лингвисты получали финансирование. В начале 90-х малограмотные российские бизнесмены хотели вести дела с иностранцами - дискеты с системой «ПРОМТ» раскупались по цене «жигулей». Миллионы пользователей интернета не владеют английским - онлайн-переводчики могут стать выгодной опцией.

Зовущий гулять Google был одним из первых, кто соединил поисковик с переводчиком. Несколько нажатий мышью - и кореец может читать французский сайт, немец - американский, араб - русский и так далее.

Качество средненькое, но суть уловить можно. Беда в том, что за этим переводчиком слишком мало науки. Он относится к новому классу - статистический перевод. Принцип прост: зачем переводить заново то, что уже когда-то было переведено?

- Есть хорошо развитые языки - скажем, английский и русский, - для которых существует огромное количество параллельных переводов - романов, технической документации и прочего. Дальше чисто математическими методами система находит в этом море текстов тот, который статистически ближе переводимому фрагменту, - объясняет лингвист Леонид Иомдин.

Допустим, у вас в базе данных есть «Война и мир», инструкция по использованию стиральной машины и их переводы на английский язык. Нужно разобраться с фразой: «После минутного молчания она начала снимать свою шубу из искусственного меха». Перевод первой части фразы можно найти у Толстого , второй - в инструкции. Если что-то не так, разработчики или даже сами пользователи могут предложить лучший вариант перевода. Поэтому кажется, что система с каждым днём становится всё более умной.

- За счёт того, что статистические системы выдают вполне приемлемое качество, появляется иллюзия, что проблема вот-вот будет решена, - печально говорит Клышинский. - Но статистика - это не перевод вообще.

Например, Google уверенно переводил название «ул. Владимирская» как «sent (святой) NASDAQ». Почему? Ответ как в старом мультике - так посчитали. Чистая статистика и никакой попытки понять смысл.

От текста к смыслу и обратно

Главную проблему автоматического перевода можно передать одним коротким словом «смысл». Надо научить машину понимать вводимую в неё информацию. Тогда Джордж будет находить свои игрушки в манеже, а президент Bush не окажется кустарником.

- Мы должны начать с того, что такое язык, - говорит академик Юрий Апресян, лингвист с мировым именем, уже полвека занимающийся семантической, то есть смысловой, природой слова. - Все попытки рассматривать язык как код провалились. Но если язык не код, тогда что? Мы имеем в голове некую мысль, находим для неё адекватное языковое выражение, а тот, кто нас слушает, совершает обратную операцию - обращает языковую форму в смысл. Так язык выступает в качестве посредника во взаимном понимании. Но я не занимаюсь электронным переводом - я пытаюсь построить универсальную модель языка.

Модель языка должна работать по принципу: на входе - смысл, а на выходе - текст. Или наоборот.

- Сделать это не так легко, - поясняет коллега Апресяна лингвист Леонид Иомдин. - Прежде всего, потому, что текст можно увидеть, услышать, прочесть, а смысл не наблюдаем: он в голове, и, в общем-то, про него ничего неизвестно.

Условно говоря, между текстами на английском и русском должно стоять нечто промежуточное - так сказать, язык без языка. Этот посредник получил название семантического представления, или метаязыка. В нём только чистый смысл.

Состоять метаязык должен уже не из слов, но из семантических первоэлементов, неделимых единиц смысла. Юрий Апресян был одним из тех, кто эти элементы впервые описал и дал им название - семантические кварки.

- Это такие элементы, для которых нет соответствий в словах языка, - объясняет Иомдин. - Ну, например, возьмём фразу: «Я стою перед шкафом». Её смысл зависит от ориентации двух объектов относительно друг друга. Вот эта «лицевость», или «фронтальность», - это и будет семантический кварк. Представить это словом невозможно. А кварком - вполне.

Любимое занятие математических лингвистов - формализовывать всё неформализуемое. Отношения реального мира можно загнать в схему, где есть агент (тот, кто делает), причина (почему делает), время (когда делает) и так далее. Даже если перед нами инопланетянин, смысл его стояния перед инопланетным шкафом будет выражаться всё той же универсальной «лицевостью».

Второе с половиной поколение

- Вот мы всё анализируем, анализируем, бесконечно анализируем, и это всё ещё Shallow!

Всё тот же «Диалог». Интеллигентная структурная лингвистка средних лет в отчаянии заламывает руки. Shallow - это поверхностный уровень синтаксического анализа текста в процессе машинного перевода. За ним должен последовать Deep, то есть глубинный уровень, выводящий на понимание смысла. Должен, но пока не следует…

- Нет, подождите! - В процесс вторгается не менее интеллигентный информатик. - Вот у нас прошла морфология…

Информатик делает изящный шаг вперёд:

- Вот пошёл поверхностный синтаксический уровень, ещё один шаг… - Но лингвистка не выдерживает:

- Вы так от нас уйдёте! Когда же начнётся Deep?..

Увы. Реально работающего, всеобъемлющего семантического представления до сих пор нет. Существуют только уровни анализа, которые к нему приближают. Первое поколение переводчиков - это перевод на уровне морфологических структур. Второе поколение - это синтаксические структуры. Третье поколение переводчика по идее должно считывать чистый смысл текста, что сделает возможным перевод с любого языка на любой. Но это - мечта. Сейчас Апресян с коллегами разрабатывает систему автоматического перевода «Этап-3», которую условно называют «системой второго с половиной поколения».

- В нашем понимании текста, может быть, мы проникли чуть глубже, чем другие переводчики такого же типа. Но добраться до чистого смысла пока не получается. Так до сих пор в этом втором с половиной поколении и живём, - признаётся Иомдин.

На сходном уровне находится и «Промт» - самая коммерчески успешная из всех систем машинного перевода, создававшихся в России. Своих успехов «Промт» добивается за счёт отказа от тотальности перевода.

- Поймите, - говорит Светлана Соколова, создатель «Промта», - любой перевод любого предложения невозможен в принципе. Если мы хотим, чтобы система работала, мы должны как можно раньше отказаться от понятия «любой». Переводчик всегда будет существовать в ситуации неполного знания, именно этому его и надо учить.

Неполное знание - это проклятая многозначность текста, когда простейшее слово или словосочетание может вдруг выразить чуть-чуть иной смысл, чем тот, что закреплён в словарях. Тут-то машина и садится в лужу. В переносном смысле, конечно.

В своё время в интернете была популярна шутка про перевод с помощью онлайн-версии «Промта» предложения о кошке, родившей трёх котят. Фраза «Our cat gave birth to three kittens - two whites and one black» превратилась в «Наш кот родил трёх котят - двух белых и одного афроамериканца». Чтобы избавиться от политкорректного котёнка, создатели рекомендовали вручную дополнить словарную статью Black, пометив это слово как «неодушевлённое».

Когда же будет настоящий переводчик?

- Понимаете, мы живём в пространстве тотальной неоднозначности, - разводит руками Иомдин. - Практически любое высказывание имеет более чем одно значение. Когда человек пользуется языком, он находится внутри самой жизни и эту неоднозначность очень легко снять. Вот вы приходите домой и говорите: «Я принесла лук». Наверно, ваш муж сразу поймёт, что вы принесли: овощ или оружие. Но если взять это высказывание вне жизненного контекста, у нас вообще нет шансов узнать, что оно значит.

Вспомните фразу Бар-Хиллела про детский манеж. С тех пор прошло почти 60 лет, но все машинные переводчики мира уверенно ищут коробки с игрушками в ручках. Подумайте, каким огромным запасом исторических, физических, химических и прочих знаний должна обладать машина, чтобы всё понимать про луки, ручки и детские манежи.

И тут проблема машинного перевода предстаёт как часть куда более широкой темы искусственного интеллекта. Чтобы конкурировать с интеллектом человеческим, ему тоже нужно понимать смыслы.

- В идеале искусственный интеллект - это способность машины создавать самостоятельные суждения, - рассказывает философ, логик и переводчик Делир Лахути. - Если мы имеем тот или иной текст, то машина должна уметь, во-первых, извлечь из него информацию, а во-вторых, знания. Информация - это факты. А знания - это способность выводить из имеющихся фактов неизвестные до сих пор закономерности.

И тут-то перед машинным переводом открываются иные возможности. Чтобы переводить точно, машине не хватает знания контекста - того, что осталось за границами конкретного предложения (как, например, в истории с луком). А теперь представьте, что машинный перевод побратался с другими системами искусственного интеллекта: базами фактических знаний, системами распознавания образов, анализаторами голоса и т. д.

Когда все эти умения сойдутся воедино, вполне вероятно, может получиться машинный переводчик, сопоставимый с человеком. Конечно, машина никогда не будет переводить Шекспира лучше Пастернака . Но там, где важны не художественные параметры, а точность понимания, компьютер теоретически может даже превзойти своего создателя.

Допустим, мы хотим перевести Хемингуэя . Для полноценного понимания смысла, который вложил в свои тексты писатель, нам нужно много чего знать о Гражданской войне в Испании или о быте кубинских рыбаков. При этом интеллектуальные возможности человека-переводчика вполне конечны. Машина же способна оперировать гигабайтами, терабайтами и прочими гигантскими объёмами - осталось лишь правильно их связать и создать правила работы.

Что из этого получится? На сайте компании «Промт» размещён шуточный прогноз развития систем машинного перевода. Последний пункт, датированный 2264 годом: «Человек глуп, как мешок опилок, - заявило Устройство 296. - Только абсолютно наивным учёным могло прийти в голову разработать технологию для понимания того, что произносят эти неопрятные куски протоплазмы».

Впервые опубликовано на сайте журнала «Русский репортёр»

← Вернуться