Перейти к содержимому

Литературный машинный перевод: неужели компьютеры отнимут у нас работу? (Часть 1)

История машинного перевода: от Джорджтауна до нейросетей.

Данный фрагмент текста является адаптацией оригинальной статьи Джеймса Хэдли «Literary machine translation: Are the computers coming for our jobs?»

Оригинал доступен по ссылке: https://ceatl.eu/wp-content/uploads/2023/04/Counterpoint_2020_04_article_04.pdf

Подготовка перевода и редактура русскоязычной версии выполнены при участии специалистов бюро переводов English Geeks.

Джеймс Хэдли

После Второй мировой войны начались эксперименты в области машинного перевода. В 1947 году американский математик Уоррен Уивер в служебной записке изложил своё видение возможностей использования цифровых компьютеров могут использоваться для перевода с языка на язык. Ранее в том же десятилетии ряд компьютеров, в том числе Bombe и Colossus, применялись союзниками в Блетчли-парке для расшифровки сообщений нацистов. Сравнивая процесс перевода с дешифровкой, было несложно представить себе машины, способные преобразовывать сообщения с одного языка на другой.

В 50-е и начале 60-х годов исследования, направленные на создание систем машинного перевода (главным образом для языковой пары английский–русский) рассматривались по обе стороны «железного занавеса» как приоритетное направление национальной безопасности. Одним из наиболее заметных событий того десятилетия стал Джорджтаунский эксперимент IBM 1954 года, в ходе которого был выполнен автоматический перевод более чем шестидесяти русских предложений на английский язык с использованием системы на основе грамматических правил. Этот эксперимент в то время сочли настолько успешным, что с уверенностью заявляли: задача создания инструмента машинного перевода будет полностью решена в течение трех–пяти лет.

Многочисленные исключения из языковых правил

Системы на основе грамматических правил, включавшие двуязычные словари и логические правила обработки текстовой информации, основывались на традиционных методах преподавания языка. Однако, как знает любой, кто изучал иностранный язык, языковые правила обычно имеют множество исключений, из-за чего такие системы быстро становились громоздкими и медленными и допускали ошибкам. В 1966 году Консультативный комитет по автоматической обработке языка пришел к выводу, что, несмотря на значительные инвестиции, системы машинного перевода в ближайшем будущем вряд ли смогут достичь уровня профессиональных переводчиков, и что усилия следует перенаправить на разработку инструментов помощи переводчикам — того, что позднее стало известно как CAT-инструменты, например Trados.

В результате более чем на десятилетие исследования машинного перевода в США практически замерли. Однако в других странах они продолжались, сосредотачиваясь на очень ограниченном числе языков, например английском и французском. Примером может служить система METEO, использовавшаяся в Канаде с 1977 по 2001 год для перевода прогнозов погоды между двумя официальными языками страны. Примерно в то же время системы на основе грамматических правил начали вытесняться статистическими системами машинного перевода (SMT), которые опирались не на вручную закодированные правила, а на большие корпуса параллельных предложений, используемые компьютером для создания новых переводов. Изначально такие системы работали по принципу «слово за словом», а позже — «фраза за фразой». Поэтому они относительно хорошо справлялись с языковыми парами с богатой ресурсной базой и сходной структурой, по которым были доступны огромные объемы параллельных текстов. Однако в случае языков со значительными различиями в порядке слов или с ограниченной доступностью параллельных текстов их качество заметно снижалось.

Статистика против нейронов

К 2014 году статистические системы стали уступать место нейронным системам машинного перевода (NMT). Они также опираются на большие корпуса параллельных предложений на двух рассматриваемых языках. Однако нейронные системы моделируются по образцу того, как нейроны взаимодействуют в человеческом мозге, где множество небольших процессов объединяются для создания конечного результата. Этим они отличаются от статистических систем: если статистические системы используют свои корпуса как «ингредиенты» перевода, то нейронные системы используют корпуса, по сути, для того, чтобы научиться переводить самостоятельно. Эти более новые системы, как правило, создают переводы быстрее и гораздо более высокого качества — до такой степени, что при наличии достаточного объема обучающих данных они могут выдавать тексты, неотличимые от переводов, выполненных человеком. Так значит ли это, что профессии переводчика пришел конец? На самом деле, нет.

В семидесятых годах прошлого века система METEO успешно справлялась с прогнозами погоды, а сегодня нейросети с ходу переводят технические руководства. Однако прогресс в шаблонных текстах не равноценен победе над художественным словом. Если в первой части мы говорили о том, как технологии завоевывали позиции, то во второй сосредоточимся на их «слепых зонах». Ключевые ограничения машинного перевода в литературе, проблема авторского стиля и примеры того, как система «забывает» смысл между предложениями — во второй части: «Почему нейросети не справляются с литературой? (Часть 2)».


Что еще почитать