Машинный перевод: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
[непроверенная версия][отпатрулированная версия]
Содержимое удалено Содержимое добавлено
мНет описания правки
 
(не показана 21 промежуточная версия 12 участников)
Строка 2: Строка 2:
{{эта статья|о переводчиках — компьютерных программах|Переводчик|о переводчиках-людях}}
{{эта статья|о переводчиках — компьютерных программах|Переводчик|о переводчиках-людях}}


'''Маши́нный перево́д''' — процесс перевода текстов (письменных, а в идеале и устных) с одного [[Естественный язык|естественного языка]] на другой с помощью специальной компьютерной [[Программа (компьютер)|программы]]. Так же называется направление научных исследований, связанных с построением подобных систем.
'''Маши́нный перево́д''' — процесс автоматического [[перевод]]а текста или речи с одного [[Естественный язык|естественного языка]] на другой, осуществляемый [[искусственный интеллект|искусственным интеллектом]] без участия человека. Ранние попытки использовать [[компьютер]]ы для перевода строились на основе запрограммированных словарей и лингвистических правил, более современные строятся на основе вероятностного подхода — это [[статистический машинный перевод|статистический]] и [[нейронный машинный перевод]].


== История машинного перевода ==
== Формы организации взаимодействия ЭВМ и человека при машинном переводе ==
{{перевести|en|History of machine translation}}
* С постредактированием: исходный текст перерабатывается машиной, а человек-редактор исправляет результат.
* С предредактированием: человек приспосабливает текст к обработке машиной (устраняет возможные неоднозначные прочтения, упрощает и размечает текст), после чего начинается программная обработка.
* С интерредактированием: человек вмешивается в работу системы перевода, разрешая трудные случаи.
* Смешанные системы (например, одновременно с пред- и постредактированием).


Идеи алгоритмов для перевода с одного языка на другой предшествовали изобретению [[компьютер]]а. В середине 1930-х годов французский инженер армянского происхождения Жорж Артцруни и советский учёный и педагог [[Смирнов-Троянский, Пётр Петрович|Пётр Смирнов-Троянский]] независимо друг от друга пытались запатентовать «машины для перевода». Более проработанный вариант Смирнова-Троянского включал в себя, кроме автоматического двуязычного словаря, схему для кодирования межъязыковых грамматических ролей, основанную на [[эсперанто]] и общие концепции анализа и синтеза текста. Тем не менее, идеи Смирнова-Троянского не получили известности до 1950-х годов<ref name="Hutchins 2014">{{Статья |ссылка=https://aclanthology.org/www.mt-archive.info/10/Hutchins-2014.pdf |автор=Hutchins, John |заглавие=The history of machine translation in a nutshell |год=2014 |язык=en |издание=hutchinsweb.me.uk |archivedate=2024-02-22 |archiveurl=https://web.archive.org/web/20240222075101/https://aclanthology.org/www.mt-archive.info/10/Hutchins-2014.pdf }}</ref>.
=== Автоматизированный перевод ===
Вместо ''«машинный»'' иногда употребляется слово '''автоматический''', что не влияет на смысл. Однако термин '''[[автоматизированный перевод]]''' имеет совсем другое значение — при нём программа просто ''помогает человеку'' переводить тексты.


Мысль использовать ЭВМ для перевода была высказана в [[1947 год]]у в [[США]] — её сформулировал математик {{iw|Уивер, Уоррен|Уоррен Уивер|en|Warren Weaver}}, работавший в то время в [[Фонд Рокфеллера|Фонде Рокфеллера]], в письме [[Винер, Норберт|Норберту Винеру]]. В июле 1949 года Уоррен подготовил меморандум, в котором свёл существующие на тот момент предложения в области машинного перевода — они строились на базе накопленных во время Второй мировой войны наработок в области криптоанализа шифров, [[Теория информации|теории информации]] [[Шеннон, Клод|Клода Шеннона]] и идей о неких универсальных принципах, на которых строятся все естественные языки. В течение следующих лет в нескольких американских университетах начались работы по созданию систем машинного перевода на базе ЭВМ<ref name="Hutchins 2014"/>. Первая публичная демонстрация такой системы – так называемый [[Джорджтаунский эксперимент]] — состоялась в [[1954 год]]у. Она была создана на базе сотрудничества между компанией [[IBM]] и [[Джорджтаунский университет|Джорджтаунским университетом]]. Хотя Джорджтаунский эксперимент использовал очень ограниченный словарь и простейшую [[Грамматика (описание языка)|грамматику]], он привлёк к себе огромный интерес и подтолкнул учёных в разных странах мира к исследованиям в этой области<ref name="Hutchins 2014"/>.
Автоматизированный перевод предполагает такие формы взаимодействия:
* Частично автоматизированный перевод: например, использование переводчиком-человеком компьютерных [[словарь|словарей]].
* Системы с разделением труда: компьютер обучен переводить только фразы жёстко заданной структуры (но делает это так, чтобы исправлять за ним не требовалось), а всё, не уложившееся в схему, отдаёт человеку.


Ранние системы представляли собой просто большие двуязычные словари и системы правил, по которым для каждого слова из целевого языка подбирался подходящий эквивалент в другом языке. Тем не менее, учёные быстро осознали, что синтаксические правила для выстраивания слов в правильном порядке становятся непомерно сложными. Машинный перевод требовал более систематических методов синтаксического анализа. Исследования в области машинного перевода в 1950-1960-х годах проводились под влиянием новых лингвистические теорий, особенно моделей [[Формальная грамматика|формальных грамматик]], как [[Генеративная лингвистика|трансформационно-генеративная грамматика]], [[грамматика зависимостей]] и стратификационная грамматика. С середины 1950-х по середину 1960-х годов исследователи в области машинного перевода сохраняли оптимизм, надеясь на прорыв в самом близком будущем. В начале 1960-х годов функционировало несколько работающих систем машинного перевода — так, Управление иностранных технологий [[Военно-воздушные силы США|ВВС США]] эксплуатировал компьютер Mark II, созданный совместно IBM и [[Вашингтонский университет|Вашингтонским университетом]]; разработки Джорджтаунского университета использовали [[Комиссия по атомной энергии США]] и [[Европейское сообщество по атомной энергии]] в своём центре в Италии<ref name="Hutchins 2014"/>.
В англоязычной терминологии также различаются термины {{lang-en|machine translation, MT}} (полностью автоматический перевод) и {{lang-en|machine-aided}} или {{lang-en|machine-assisted translation (MAT)}} (автоматизированный); если же надо обозначить и то, и другое, пишут M(A)T.


В 1964 году правительство США созвало специальную Консультативную комиссию по автоматической обработке языка ({{iw|ALPAC|ALPAC|en|ALPAC}}). Эта группа в 1966 году опубликовала отчёт, в котором делала вывод о нерентабельности систем машинного перевода: машинный перевод был медленнее, ниже по качеству и при этом обходился вдвое дороже, чем услуги людей-переводчиков. ALPAC считала дальнейшие инвестиции в эту область неразумными, предлагая вместо этого сосредоточиться на разработке систем, которые помогали бы работать переводчикам — например, компьютерных словарей — а также вести дальнейшие теоретические исследования в области [[Компьютерная лингвистика|компьютерной лингвистики]]. Отчёт ALPAC привёл к фактическому прекращению любых разработок в области машинного перевода в США и также повлиял на исследователей в СССР и Европе. Тем не менее, в некоторых странах — Германии, Канаде, Франции — исследования в этой области продолжались. В 1970 году ВВС США начала эксплуатировать систему [[SYSTRAN]]; в 1976 году [[Европейская комиссия]] начала использовать ту же систему SYSTRAN для перевода между европейскими языками своих быстро растущих объемов документов. В том же году в Канаде была запущена разработанная [[Монреальский университет|Монреальским университетом]] система Meteo для машинного перевода прогнозов погоды. В СССР в 1960-е годы разработки в области машинного перевода были сосредоточены в основном на области перевода научно-технической документации с английского на русский язык и обратно, рассчитанной на малое количество потенциальных пользователей — в этой области скорость доступа к информации был важнее, чем недостатки машинного перевода<ref name="Hutchins 2014"/>.
Существуют несколько принципиально разных подходов к построению алгоритмов машинного перевода: [[Машинный перевод на основе правил|основанный на правилах]] (rule-based), статистический, или [[Статистический машинный перевод|основанный на статистике]] (statistical-based), [[нейронный машинный перевод]] (neural machine translation, NMT). Первый подход является традиционным и используется большинством разработчиков систем машинного перевода (ПРОМТ в России, SYSTRAN во Франции, Linguatec в Германии и др.)<ref>{{Cite web |url=http://filolingvia.com/publ/25-1-0-898 |title=Машинный перевод: правила против статистики |access-date=2011-12-22 |archive-date=2011-11-23 |archive-url=https://web.archive.org/web/20111123195727/http://filolingvia.com/publ/25-1-0-898 |deadlink=no }}</ref> Ко второму типу относится популярный сервис [[Яндекс.Переводчик]], [[Переводчик Google]], а также новый сервис от ABBYY<ref>{{Cite web |url=http://joomla-master.org/books/html-css-php-cms/perevesti-tekst-v-onlaiene-pomojet-kompaniya-abbyy.html |title=Новый подход ABBYY к переводу текстов |access-date=2011-12-22 |archive-date=2012-01-20 |archive-url=https://web.archive.org/web/20120120032203/http://joomla-master.org/books/html-css-php-cms/perevesti-tekst-v-onlaiene-pomojet-kompaniya-abbyy.html |deadlink=no }}</ref>. Сейчас большинство систем являются гибридными — сочетая правила, статистику и нейронные сети.


К началу 1980-х годов основные системы машинного перевода строились на базе компьютеров-[[мейнфрейм]]ов. Помимо SYSTRAN, поддерживающей к этому времени уже много языковых пар, появились системы Logos для переводов в парах английский-немецкий и английский-французский; собственная система {{iw|Панамериканская организация здравоохранения|Панамериканской организации здравоохранения|en|Pan American Health Organization}} для переводов в паре английский-испанский; система {{iw|METAL MT}}, разработанная [[Техасский университет в Остине|Техасским университетом в Остине]] и немецкой компанией [[Siemens]], а также ряд систем для перевода в паре английский-японский от японских производителей. В 1980-х годах широко распространились [[Персональный компьютер|персональные компьютеры]] и [[Текстовый процессор|текстовые процессоры]] — появилось огромное количество гораздо более дешёвых систем машинного перевода, чем прежде, в том числе продукты компаний ALPS, {{iw|Weidner Communications}}, Linguistic Products и Globalink, и множество японских — свои микрокомпьютеры для машинного перевода выпускали компании [[Sharp]], [[NEC]], [[OKI]], [[Mitsubishi]], [[Sanyo]] и другие<ref name="Hutchins 2014"/>. В научной среде также появилось множество исследований, связанных с «непрямым» переводом через промежуточные и иногда межъязыковые формы представления информации, семантическим, морфологическим и синтаксическим анализом, а также составлением нелингвистических баз знаний. В это время функционировали и два крупных международных исследовательских проекта — {{iw|Eurotra}}, который финансировали [[Европейские сообщества]], и японский Центр международного сотрудничества в области компьютеризации, объединяющий также учёных из Китая, Индонезии и Таиланда<ref name="Hutchins 2014"/>.
== Статистический машинный перевод ==
[[Статистический машинный перевод]] — это разновидность машинного перевода текста, основанная на сравнении больших объёмов языковых пар. Языковые пары — тексты, содержащие предложения на одном языке и соответствующие им предложения на втором, могут быть как вариантами написания двух предложений человеком — носителем двух языков, так и набором предложений и их переводов, выполненных человеком. Таким образом статистический машинный перевод обладает свойством «самообучения». Чем больше в распоряжении имеется языковых пар и чем точнее они соответствуют друг другу, тем лучше результат статистического машинного перевода.
Под понятием «статистического машинного перевода» подразумевается общий подход к решению проблемы перевода, который основан на поиске наиболее вероятного перевода предложения с использованием данных, полученных из двуязычной совокупности текстов. В качестве примера двуязычной совокупности текстов можно назвать парламентские отчеты, которые представляют собой протоколы дебатов в парламенте. Двуязычные парламентские отчеты издаются в Канаде, Гонконге и других странах; официальные документы Европейского экономического сообщества издаются на 11 языках; а Организация объединённых наций публикует документы на нескольких языках. Как оказалось, эти материалы представляют собой бесценные ресурсы для статистического машинного перевода.


Система Candide, созданная группой специалистов из [[IBM]] на рубеже 1980-х и 1990-х годов, стала первой демонстрацией нового подхода — [[Статистический машинный перевод|статистического машинного перевода]]. В это же время несколько японских исследовательских групп предлагали и ещё одно решение проблемы машинного перевода — [[Корпус текстов|корпусные]] системы, где перевод строился на готовых примерах. Создавались и проекты систем машинного перевода на основе правил, как проект Catalyst [[Университет Карнеги — Меллона|университета Карнеги — Меллона]]. Появились и коммерческие системы [[Память переводов|памяти переводов]], как [[Trados]], позволявшие людям-переводчикам легко обращаться к уже имеющимся переводам текстов. В 1990-е годы также начались исследования в области машинного перевода речи<ref name="Hutchins 2014"/>.
== История машинного перевода ==
{{перевести|en|History of machine translation}}


В настоящее время существует множество коммерческих проектов машинного перевода. Одним из пионеров в области машинного перевода была компания [[SYSTRAN]]. В [[Россия|России]] большой вклад в развитие машинного перевода внесла группа под руководством проф. [[Пиотровский, Раймунд Генрихович|Р. Г. Пиотровского]] ([[Российский государственный педагогический университет имени А. И. Герцена]], [[Санкт-Петербург]]).
Мысль использовать ЭВМ для перевода была высказана в [[1947 год]]у в [[США]], сразу после появления первых ЭВМ. Первая публичная [[демонстрация]] машинного перевода (так называемый [[Джорджтаунский эксперимент]]) состоялась в [[1954 год]]у. Несмотря на примитивность той системы (словарь в 250 слов, [[Грамматика (описание языка)|грамматика]] из 6 правил, перевод нескольких простых фраз), этот эксперимент получил широкий резонанс: начались исследования в [[Англия|Англии]], [[Болгария|Болгарии]], [[ГДР]], [[Италия|Италии]], [[Китай|Китае]], [[Франция|Франции]], [[ФРГ]], [[Япония|Японии]] и других странах; в том же 1954 году и в [[СССР]].


== Подходы к машинному переводу ==
К середине [[1960-е|1960-х]] в США для практического использования были предоставлены две системы русско-английского перевода:
=== Машинный перевод на основе правил ===
* MARK (в Департаменте иностранной техники ВВС США);
{{main|Машинный перевод на основе правил}}
* GAT (разработка Джорджтаунского университета, использовалась в Национальной лаборатории атомной энергии в Окридже и в центре Евратома в г. Испра, Италия).
{{заготовка раздела}}


=== Статистический машинный перевод ===
Однако созданная для оценки подобных систем комиссия {{iw|ALPAC|ALPAC|en|ALPAC}} пришла к выводу, что в силу низкого качества машинно переведённых текстов эта деятельность в условиях США нерентабельна. Хотя комиссия рекомендовала продолжать и углублять теоретические разработки, в целом её выводы привели к росту [[пессимизм]]а, снижению финансирования, часто к полному прекращению работ по этой тематике.
{{main|Статистический машинный перевод}}
Статистический подход в машинном переводе основанная на сравнении больших объёмов языковых пар. Языковые пары — тексты, содержащие предложения на одном языке и соответствующие им предложения на втором, могут быть как вариантами написания двух предложений человеком — носителем двух языков, так и набором предложений и их переводов, выполненных человеком. Таким образом статистический машинный перевод обладает свойством «самообучения». Чем больше в распоряжении имеется языковых пар и чем точнее они соответствуют друг другу, тем лучше результат статистического машинного перевода.


Под понятием «статистического машинного перевода» подразумевается общий подход к решению проблемы перевода, который основан на поиске наиболее вероятного перевода предложения с использованием данных, полученных из двуязычной совокупности текстов. В качестве примера двуязычной совокупности текстов можно назвать парламентские отчёты, которые представляют собой протоколы дебатов в парламенте. Двуязычные парламентские отчёты издаются в Канаде, Гонконге и других странах; официальные документы Европейского экономического сообщества издаются на 11 языках; а Организация объединённых наций публикует документы на нескольких языках. Как оказалось, эти материалы представляют собой бесценные ресурсы для статистического машинного перевода.
Тем не менее, в ряде стран исследования продолжались, чему способствовал постоянный прогресс вычислительной техники. Особенно существенным фактором стало появление мини- и [[Персональный компьютер|персональных компьютеров]], а с ними всё более сложных словарных, [[Поисковая система|поисковых]] и т. п. систем, ориентированных на работу с естественно-языковыми данными. Росла и необходимость в переводе как таковом ввиду роста международных связей. Все это привело к новому подъёму этой области, наступившему примерно с середины [[1970-е|1970-х]]. В [[1980-е]] наступило время широкого практического использования переводческих систем, сложился рынок коммерческих разработок по этой теме.


=== Нейронный машинный перевод ===
Впрочем, мечты, с которыми человечество полвека назад взялось за задачу машинного перевода, в значительной мере остаются мечтами: высококачественный перевод текстов широкой тематики по-прежнему недостижим. Однако несомненным является ускорение работы переводчика при использовании систем машинного перевода: по оценкам конца 1980-х, до пяти раз.
{{main|Нейронный машинный перевод}}

{{заготовка раздела}}
В настоящее время существует множество коммерческих проектов машинного перевода. Одним из пионеров в области машинного перевода была компания [[SYSTRAN]]. В [[Россия|России]] большой вклад в развитие машинного перевода внесла группа под руководством проф. [[Пиотровский, Раймунд Генрихович|Р. Г. Пиотровского]] ([[Российский государственный педагогический университет имени А. И. Герцена]], [[Санкт-Петербург]]).


== Философские обоснования ==
== Философские обоснования ==
{{Заготовка раздела}}
{{Заготовка раздела}}
В 1960-х годах [[Станислав Лем]] обобщал высказывания о проблеме машинного перевода и связи с [[понимание текста|пониманием текста]] [[искусственный интеллект|самой машиной]] (что связано, например, с обсуждением сформулированной в 1980 году концепции «[[Китайская комната|китайской комнаты]]»):
В 1960-х годах [[Станислав Лем]] обобщал высказывания о проблеме машинного перевода и связи с [[понимание текста|пониманием текста]] [[искусственный интеллект|самой машиной]] (что связано, например, с обсуждением сформулированной в 1980 году концепции «[[Китайская комната|китайской комнаты]]»):
{{quote|... мы настаиваем на наделении машин-переводчиков «полнотой внутренней жизни» человека; однако мы просто не знаем, в какой мере можно «недодать личность» машине, которая призвана хорошо переводить.
{{quote|... мы настаиваем на наделении машин-переводчиков «полнотой внутренней жизни» человека; однако мы просто не знаем, в какой мере можно «недодать личность» машине, которая призвана хорошо переводить.
Мы не знаем, можно ли «понимать», не обладая «личностью» хотя бы в зачатке. <…> Не представляется возможным эффективно использовать операциональный язык до конца в качестве орудия перевода в сфере языков дискурсивных — мыслительных. Либо машины будут действовать «понимающе», либо по-настоящему эффективных машин-переводчиков не будет вовсе<ref>«[[Summa Technologiae]]», 1963 (или 2-е изд. 1967), глава 4.</ref>.}}
Мы не знаем, можно ли «понимать», не обладая «личностью» хотя бы в зачатке. <…> Не представляется возможным эффективно использовать операциональный язык до конца в качестве орудия перевода в сфере языков дискурсивных — мыслительных. Либо машины будут действовать «понимающе», либо по-настоящему эффективных машин-переводчиков не будет вовсе<ref>«[[Summa Technologiae]]», 1963 (или 2-е изд. 1967), глава 4.</ref>.}}
Строка 52: Строка 46:
Качество перевода зависит от тематики и [[стили речи|стиля]] исходного текста, а также грамматической, синтаксической и лексической родственности языков, между которыми производится перевод. Машинный перевод [[Функциональные стили речи#Художественный стиль|художественных текстов]] практически всегда оказывается неудовлетворительного качества. Тем не менее для технических документов при наличии специализированных машинных словарей и некоторой настройке системы на особенности того или иного типа текстов возможно получение перевода приемлемого качества, который нуждается лишь в небольшой редакторской корректировке.{{нет АИ|10|06|2012}}<!-- можно ли привести примеры подобных удачных переводов? --> Чем более [[Формализация|формализован]] стиль исходного документа, тем большего качества перевода можно ожидать. Самых лучших результатов при использовании машинного перевода можно достичь для текстов, написанных в техническом (различные описания и руководства) и [[Функциональные стили речи#Официально-деловой стиль|официально-деловом стиле]].
Качество перевода зависит от тематики и [[стили речи|стиля]] исходного текста, а также грамматической, синтаксической и лексической родственности языков, между которыми производится перевод. Машинный перевод [[Функциональные стили речи#Художественный стиль|художественных текстов]] практически всегда оказывается неудовлетворительного качества. Тем не менее для технических документов при наличии специализированных машинных словарей и некоторой настройке системы на особенности того или иного типа текстов возможно получение перевода приемлемого качества, который нуждается лишь в небольшой редакторской корректировке.{{нет АИ|10|06|2012}}<!-- можно ли привести примеры подобных удачных переводов? --> Чем более [[Формализация|формализован]] стиль исходного документа, тем большего качества перевода можно ожидать. Самых лучших результатов при использовании машинного перевода можно достичь для текстов, написанных в техническом (различные описания и руководства) и [[Функциональные стили речи#Официально-деловой стиль|официально-деловом стиле]].


Применение машинного перевода без настройки на тематику (или с намеренно неверной настройкой) служит предметом многочисленных бытующих в [[Интернет]]е шуток. Из старых и наиболее популярных примеров таких шуток наиболее известен текст перевода документации к [[драйвер]]у [[Компьютерная мышь|мыши]], известный как «Гуртовщики Мыши», заявленный как «перевод компьютерной документации системой машинного перевода Poliglossum на основе медицинского, коммерческого и юридического словарей»<ref>{{статья|заглавие = Щелчок по почкам|издание = [[Хакер (журнал)|Хакер]]|год = 1999|номер = 1|страницы = 98|issn = 1609-1019|ссылка = http://xakep.ru/issues/xa/001/|archiveurl = https://archive.org/details/magazine-xakep_1999-01/page/n95/mode/2up|archivedate = 2015-11-13}}</ref>{{#tag:ref|Впрочем, это не так: [[Polyglossum]] (''[[sic]]'') — это [[электронный словарь]]<ref>{{Cite web |url=http://www.polyglossum.com/pg/r/index.htm |title=Polyglossum на официальном сайте |access-date=2011-07-04 |archive-date=2010-09-16 |archive-url=https://web.archive.org/web/20100916213902/http://www.polyglossum.com/pg/r/index.htm |deadlink=no }}</ref>, программа того же класса, что и [[Lingvo]], самостоятельно переводить не способная. В то время он существовал в версиях для [[DOS]] и [[Windows 3.x]] и, уступая ''Lingvo'' и ''Context'' по качеству общего словаря, имел рекордный объём специализированных словарей. К тому же отдельные ошибки перевода выдают подделку — вероятно, после машинного перевода текст редактировался вручную : «Замечательный пример текста, полученного якобы при помощи медико-биологического словаря в результате перевода руководства по работе с драйверами мыши, называется „Гуртовщики Мыши“ … не верю в чистоту эксперимента: наверняка там не обошлось без поправок, внесенных в текст рукой человека<ref>К. Кноп. [http://old.computerra.ru/1999/325/2720/ Сократ мне друг, но истина дороже] {{Wayback|url=http://old.computerra.ru/1999/325/2720/ |date=20210121072301 }} // Компьютерра. — 1999. — № 47 (23 ноября).</ref>».||group="комм."}}.
Применение машинного перевода без настройки на тематику (или с намеренно неверной настройкой) служит предметом многочисленных бытующих в [[Интернет]]е шуток. Из старых и наиболее популярных примеров таких шуток наиболее известен текст перевода документации к [[драйвер]]у [[Компьютерная мышь|мыши]], известный как «Гуртовщики Мыши», заявленный как «перевод компьютерной документации системой машинного перевода Poliglossum на основе медицинского, коммерческого и юридического словарей»<ref>{{статья|заглавие = Щелчок по почкам|издание = [[Хакер (журнал)|Хакер]]|год = 1999|номер = 1|страницы = 98|issn = 1609-1019|ссылка = http://xakep.ru/issues/xa/001/|archiveurl = https://web.archive.org/web/20221211141530/https://xakep.ru/issues/xa/001/|archivedate = 2022-12-11}}</ref>{{#tag:ref|Впрочем, это не так: [[Polyglossum]] (''[[sic]]'') — это [[электронный словарь]]<ref>{{Cite web |url=http://www.polyglossum.com/pg/r/index.htm |title=Polyglossum на официальном сайте |access-date=2011-07-04 |archive-date=2010-09-16 |archive-url=https://web.archive.org/web/20100916213902/http://www.polyglossum.com/pg/r/index.htm |deadlink=no }}</ref>, программа того же класса, что и [[Lingvo]], самостоятельно переводить не способная. В то время он существовал в версиях для [[DOS]] и [[Windows 3.x]] и, уступая ''Lingvo'' и ''Context'' по качеству общего словаря, имел рекордный объём специализированных словарей. К тому же отдельные ошибки перевода выдают подделку — вероятно, после машинного перевода текст редактировался вручную : «Замечательный пример текста, полученного якобы при помощи медико-биологического словаря в результате перевода руководства по работе с драйверами мыши, называется „Гуртовщики Мыши“ … не верю в чистоту эксперимента: наверняка там не обошлось без поправок, внесенных в текст рукой человека<ref>К. Кноп. [http://old.computerra.ru/1999/325/2720/ Сократ мне друг, но истина дороже] {{Wayback|url=http://old.computerra.ru/1999/325/2720/ |date=20210121072301 }} // Компьютерра. — 1999. — № 47 (23 ноября).</ref>».||group="комм."}}.
Из кратких — фраза «{{lang-en2|Our cat gave birth to three kittens — two whites and one black}}», которую онлайн-переводчик «[[ПРОМТ]]» (версия 7.0, [[2007]]) превращал в «Наш кот родил трёх котят — двух белых и одного [[Афроамериканцы|афроамериканца]]»<ref>[http://ivannikitin.com/2007/06/15/наш-кот-родил-трех-котят-двух-белых-и-о/ Наш кот родил трёх котят — двух белых и одного афроамериканца]</ref>. Если «афроамериканца» ещё можно было сделать «чёрным», написав «{{lang-en2|black kitten}}», то «коту» так и не получалось сменить пол: например, {{lang-en2|female cat}} переводился как «самка кот».
Из кратких — фраза «{{lang-en2|Our cat gave birth to three kittens — two whites and one black}}», которую онлайн-переводчик «[[ПРОМТ]]» (версия 7.0, [[2007]]) превращал в «Наш кот родил трёх котят — двух белых и одного [[Афроамериканцы|афроамериканца]]»<ref>[http://ivannikitin.com/2007/06/15/наш-кот-родил-трех-котят-двух-белых-и-о/ Наш кот родил трех котят — двух белых и одного афроамериканца]</ref>. Если «афроамериканца» ещё можно было сделать «чёрным», написав «{{lang-en2|black kitten}}», то «коту» так и не получалось сменить пол: например, {{lang-en2|female cat}} переводился как «самка кот».


Чаще всего подобные шутки связаны с тем, что программа не распознаёт контекст фразы и переводит термины дословно, к тому же не отличая собственных имён от обычных слов. Тот же переводчик ПРОМТ превращал «[[Лев Толстой]]» в «Lion Thick» («толстый лев»), «[[Бра и кет|bra-ket notation]]» в «примечание Кети лифчика», «[[алгебра Ли|Lie algebra]]» — в «алгебру Лжи», «[[вектор эксцентриситета|eccentricity vector]]» — в «вектор оригинальности», «[[Шони Смит|Shawnee Smith]]» в «индеец племени шони Смит», популярную в сериале «[[Игра в кальмара]]» игру «Red light, green light» — в «красный свет, зелёный свет» и т. п. [[Google Translate|Переводчик Google]], наоборот, слово «{{lang-en2|[[рис|rice]]}}» часто принимал за фамилию [[Райс, Кондолиза|госсекретаря США]].
Чаще всего подобные шутки связаны с тем, что программа не распознаёт контекст фразы и переводит термины дословно, к тому же не отличая собственных имён от обычных слов. Тот же переводчик ПРОМТ превращал «[[Лев Толстой]]» в «Lion Thick» («толстый лев»), «[[Бра и кет|bra-ket notation]]» в «примечание Кети лифчика», «[[алгебра Ли|Lie algebra]]» — в «алгебру Лжи», «[[вектор эксцентриситета|eccentricity vector]]» — в «вектор оригинальности», «[[Шони Смит|Shawnee Smith]]» в «индеец племени шони Смит», популярную в сериале «[[Игра в кальмара]]» игру «Red light, green light» — в «красный свет, зелёный свет» и т. п. [[Google Translate|Переводчик Google]], наоборот, слово «{{lang-en2|[[рис|rice]]}}» часто принимал за фамилию [[Райс, Кондолиза|госсекретаря США]].
Строка 71: Строка 65:
== Литература ==
== Литература ==
{{Викисловарь|машинный перевод}}
{{Викисловарь|машинный перевод}}
* {{БРЭ|Автоматический перевод|id=1799594|автор=И. М. Богуславский}}
* {{БРЭ|автор=И. М. Богуславский|статья=Автоматический перевод|ссылка=https://old.bigenc.ru/linguistics/text/1799594|архив=https://web.archive.org/web/20230103215725/https://bigenc.ru/linguistics/text/1799594|архив дата=2023-01-03}}
* ''Гращенко Л. А., Клышинский Э. С., Тумковский С. Р., Усманов З. Д.'' [http://elibrary.ru/item.asp?id=16498144 Концептуальная модель системы русско-таджикского машинного перевода] // Доклады Академии наук Республики Таджикистан. — 2011. — том 54, № 4. — С. 279—285.
* ''Гращенко Л. А., Клышинский Э. С., Тумковский С. Р., Усманов З. Д.'' [http://elibrary.ru/item.asp?id=16498144 Концептуальная модель системы русско-таджикского машинного перевода] // Доклады Академии наук Республики Таджикистан. — 2011. — том 54, № 4. — С. 279—285.
* ''О. С. Кулагина.'' О современном состоянии машинного перевода // Математические вопросы кибернетики, вып. 3, М.: Наука, 1991, стр. 5—50. Библиография из 140 названий. ISBN 5-02-014323-5.
* ''О. С. Кулагина.'' О современном состоянии машинного перевода // Математические вопросы кибернетики, вып. 3, М.: Наука, 1991, стр. 5—50. Библиография из 140 названий. ISBN 5-02-014323-5.
Строка 88: Строка 82:
[[Категория:Обработка естественного языка]]
[[Категория:Обработка естественного языка]]
[[Категория:Переводоведение]]
[[Категория:Переводоведение]]
[[Категория:Применение искусственного интеллекта]]

Текущая версия от 04:01, 4 октября 2024

Маши́нный перево́д — процесс автоматического перевода текста или речи с одного естественного языка на другой, осуществляемый искусственным интеллектом без участия человека. Ранние попытки использовать компьютеры для перевода строились на основе запрограммированных словарей и лингвистических правил, более современные строятся на основе вероятностного подхода — это статистический и нейронный машинный перевод.

История машинного перевода

[править | править код]

Идеи алгоритмов для перевода с одного языка на другой предшествовали изобретению компьютера. В середине 1930-х годов французский инженер армянского происхождения Жорж Артцруни и советский учёный и педагог Пётр Смирнов-Троянский независимо друг от друга пытались запатентовать «машины для перевода». Более проработанный вариант Смирнова-Троянского включал в себя, кроме автоматического двуязычного словаря, схему для кодирования межъязыковых грамматических ролей, основанную на эсперанто и общие концепции анализа и синтеза текста. Тем не менее, идеи Смирнова-Троянского не получили известности до 1950-х годов[1].

Мысль использовать ЭВМ для перевода была высказана в 1947 году в США — её сформулировал математик Уоррен Уивер[англ.], работавший в то время в Фонде Рокфеллера, в письме Норберту Винеру. В июле 1949 года Уоррен подготовил меморандум, в котором свёл существующие на тот момент предложения в области машинного перевода — они строились на базе накопленных во время Второй мировой войны наработок в области криптоанализа шифров, теории информации Клода Шеннона и идей о неких универсальных принципах, на которых строятся все естественные языки. В течение следующих лет в нескольких американских университетах начались работы по созданию систем машинного перевода на базе ЭВМ[1]. Первая публичная демонстрация такой системы – так называемый Джорджтаунский эксперимент — состоялась в 1954 году. Она была создана на базе сотрудничества между компанией IBM и Джорджтаунским университетом. Хотя Джорджтаунский эксперимент использовал очень ограниченный словарь и простейшую грамматику, он привлёк к себе огромный интерес и подтолкнул учёных в разных странах мира к исследованиям в этой области[1].

Ранние системы представляли собой просто большие двуязычные словари и системы правил, по которым для каждого слова из целевого языка подбирался подходящий эквивалент в другом языке. Тем не менее, учёные быстро осознали, что синтаксические правила для выстраивания слов в правильном порядке становятся непомерно сложными. Машинный перевод требовал более систематических методов синтаксического анализа. Исследования в области машинного перевода в 1950-1960-х годах проводились под влиянием новых лингвистические теорий, особенно моделей формальных грамматик, как трансформационно-генеративная грамматика, грамматика зависимостей и стратификационная грамматика. С середины 1950-х по середину 1960-х годов исследователи в области машинного перевода сохраняли оптимизм, надеясь на прорыв в самом близком будущем. В начале 1960-х годов функционировало несколько работающих систем машинного перевода — так, Управление иностранных технологий ВВС США эксплуатировал компьютер Mark II, созданный совместно IBM и Вашингтонским университетом; разработки Джорджтаунского университета использовали Комиссия по атомной энергии США и Европейское сообщество по атомной энергии в своём центре в Италии[1].

В 1964 году правительство США созвало специальную Консультативную комиссию по автоматической обработке языка (ALPAC[англ.]). Эта группа в 1966 году опубликовала отчёт, в котором делала вывод о нерентабельности систем машинного перевода: машинный перевод был медленнее, ниже по качеству и при этом обходился вдвое дороже, чем услуги людей-переводчиков. ALPAC считала дальнейшие инвестиции в эту область неразумными, предлагая вместо этого сосредоточиться на разработке систем, которые помогали бы работать переводчикам — например, компьютерных словарей — а также вести дальнейшие теоретические исследования в области компьютерной лингвистики. Отчёт ALPAC привёл к фактическому прекращению любых разработок в области машинного перевода в США и также повлиял на исследователей в СССР и Европе. Тем не менее, в некоторых странах — Германии, Канаде, Франции — исследования в этой области продолжались. В 1970 году ВВС США начала эксплуатировать систему SYSTRAN; в 1976 году Европейская комиссия начала использовать ту же систему SYSTRAN для перевода между европейскими языками своих быстро растущих объемов документов. В том же году в Канаде была запущена разработанная Монреальским университетом система Meteo для машинного перевода прогнозов погоды. В СССР в 1960-е годы разработки в области машинного перевода были сосредоточены в основном на области перевода научно-технической документации с английского на русский язык и обратно, рассчитанной на малое количество потенциальных пользователей — в этой области скорость доступа к информации был важнее, чем недостатки машинного перевода[1].

К началу 1980-х годов основные системы машинного перевода строились на базе компьютеров-мейнфреймов. Помимо SYSTRAN, поддерживающей к этому времени уже много языковых пар, появились системы Logos для переводов в парах английский-немецкий и английский-французский; собственная система Панамериканской организации здравоохранения[англ.] для переводов в паре английский-испанский; система METAL MT[англ.], разработанная Техасским университетом в Остине и немецкой компанией Siemens, а также ряд систем для перевода в паре английский-японский от японских производителей. В 1980-х годах широко распространились персональные компьютеры и текстовые процессоры — появилось огромное количество гораздо более дешёвых систем машинного перевода, чем прежде, в том числе продукты компаний ALPS, Weidner Communications[англ.], Linguistic Products и Globalink, и множество японских — свои микрокомпьютеры для машинного перевода выпускали компании Sharp, NEC, OKI, Mitsubishi, Sanyo и другие[1]. В научной среде также появилось множество исследований, связанных с «непрямым» переводом через промежуточные и иногда межъязыковые формы представления информации, семантическим, морфологическим и синтаксическим анализом, а также составлением нелингвистических баз знаний. В это время функционировали и два крупных международных исследовательских проекта — Eurotra[англ.], который финансировали Европейские сообщества, и японский Центр международного сотрудничества в области компьютеризации, объединяющий также учёных из Китая, Индонезии и Таиланда[1].

Система Candide, созданная группой специалистов из IBM на рубеже 1980-х и 1990-х годов, стала первой демонстрацией нового подхода — статистического машинного перевода. В это же время несколько японских исследовательских групп предлагали и ещё одно решение проблемы машинного перевода — корпусные системы, где перевод строился на готовых примерах. Создавались и проекты систем машинного перевода на основе правил, как проект Catalyst университета Карнеги — Меллона. Появились и коммерческие системы памяти переводов, как Trados, позволявшие людям-переводчикам легко обращаться к уже имеющимся переводам текстов. В 1990-е годы также начались исследования в области машинного перевода речи[1].

В настоящее время существует множество коммерческих проектов машинного перевода. Одним из пионеров в области машинного перевода была компания SYSTRAN. В России большой вклад в развитие машинного перевода внесла группа под руководством проф. Р. Г. Пиотровского (Российский государственный педагогический университет имени А. И. Герцена, Санкт-Петербург).

Подходы к машинному переводу

[править | править код]

Машинный перевод на основе правил

[править | править код]

Статистический машинный перевод

[править | править код]

Статистический подход в машинном переводе основанная на сравнении больших объёмов языковых пар. Языковые пары — тексты, содержащие предложения на одном языке и соответствующие им предложения на втором, могут быть как вариантами написания двух предложений человеком — носителем двух языков, так и набором предложений и их переводов, выполненных человеком. Таким образом статистический машинный перевод обладает свойством «самообучения». Чем больше в распоряжении имеется языковых пар и чем точнее они соответствуют друг другу, тем лучше результат статистического машинного перевода.

Под понятием «статистического машинного перевода» подразумевается общий подход к решению проблемы перевода, который основан на поиске наиболее вероятного перевода предложения с использованием данных, полученных из двуязычной совокупности текстов. В качестве примера двуязычной совокупности текстов можно назвать парламентские отчёты, которые представляют собой протоколы дебатов в парламенте. Двуязычные парламентские отчёты издаются в Канаде, Гонконге и других странах; официальные документы Европейского экономического сообщества издаются на 11 языках; а Организация объединённых наций публикует документы на нескольких языках. Как оказалось, эти материалы представляют собой бесценные ресурсы для статистического машинного перевода.

Нейронный машинный перевод

[править | править код]

Философские обоснования

[править | править код]

В 1960-х годах Станислав Лем обобщал высказывания о проблеме машинного перевода и связи с пониманием текста самой машиной (что связано, например, с обсуждением сформулированной в 1980 году концепции «китайской комнаты»):

... мы настаиваем на наделении машин-переводчиков «полнотой внутренней жизни» человека; однако мы просто не знаем, в какой мере можно «недодать личность» машине, которая призвана хорошо переводить. Мы не знаем, можно ли «понимать», не обладая «личностью» хотя бы в зачатке. <…> Не представляется возможным эффективно использовать операциональный язык до конца в качестве орудия перевода в сфере языков дискурсивных — мыслительных. Либо машины будут действовать «понимающе», либо по-настоящему эффективных машин-переводчиков не будет вовсе[2].

Качество перевода

[править | править код]

Качество перевода зависит от тематики и стиля исходного текста, а также грамматической, синтаксической и лексической родственности языков, между которыми производится перевод. Машинный перевод художественных текстов практически всегда оказывается неудовлетворительного качества. Тем не менее для технических документов при наличии специализированных машинных словарей и некоторой настройке системы на особенности того или иного типа текстов возможно получение перевода приемлемого качества, который нуждается лишь в небольшой редакторской корректировке.[источник не указан 4592 дня] Чем более формализован стиль исходного документа, тем большего качества перевода можно ожидать. Самых лучших результатов при использовании машинного перевода можно достичь для текстов, написанных в техническом (различные описания и руководства) и официально-деловом стиле.

Применение машинного перевода без настройки на тематику (или с намеренно неверной настройкой) служит предметом многочисленных бытующих в Интернете шуток. Из старых и наиболее популярных примеров таких шуток наиболее известен текст перевода документации к драйверу мыши, известный как «Гуртовщики Мыши», заявленный как «перевод компьютерной документации системой машинного перевода Poliglossum на основе медицинского, коммерческого и юридического словарей»[3][комм. 1]. Из кратких — фраза «Our cat gave birth to three kittens — two whites and one black», которую онлайн-переводчик «ПРОМТ» (версия 7.0, 2007) превращал в «Наш кот родил трёх котят — двух белых и одного афроамериканца»[6]. Если «афроамериканца» ещё можно было сделать «чёрным», написав «black kitten», то «коту» так и не получалось сменить пол: например, female cat переводился как «самка кот».

Чаще всего подобные шутки связаны с тем, что программа не распознаёт контекст фразы и переводит термины дословно, к тому же не отличая собственных имён от обычных слов. Тот же переводчик ПРОМТ превращал «Лев Толстой» в «Lion Thick» («толстый лев»), «bra-ket notation» в «примечание Кети лифчика», «Lie algebra» — в «алгебру Лжи», «eccentricity vector» — в «вектор оригинальности», «Shawnee Smith» в «индеец племени шони Смит», популярную в сериале «Игра в кальмара» игру «Red light, green light» — в «красный свет, зелёный свет» и т. п. Переводчик Google, наоборот, слово «rice» часто принимал за фамилию госсекретаря США.

Комментарии

[править | править код]
  1. Впрочем, это не так: Polyglossum (sic) — это электронный словарь[4], программа того же класса, что и Lingvo, самостоятельно переводить не способная. В то время он существовал в версиях для DOS и Windows 3.x и, уступая Lingvo и Context по качеству общего словаря, имел рекордный объём специализированных словарей. К тому же отдельные ошибки перевода выдают подделку — вероятно, после машинного перевода текст редактировался вручную : «Замечательный пример текста, полученного якобы при помощи медико-биологического словаря в результате перевода руководства по работе с драйверами мыши, называется „Гуртовщики Мыши“ … не верю в чистоту эксперимента: наверняка там не обошлось без поправок, внесенных в текст рукой человека[5]».

Примечания

[править | править код]
  1. 1 2 3 4 5 6 7 8 Hutchins, John. The history of machine translation in a nutshell (англ.) // hutchinsweb.me.uk. — 2014. Архивировано 22 февраля 2024 года.
  2. «Summa Technologiae», 1963 (или 2-е изд. 1967), глава 4.
  3. Щелчок по почкам // Хакер. — 1999. — № 1. — С. 98. — ISSN 1609-1019. Архивировано 11 декабря 2022 года.
  4. Polyglossum на официальном сайте. Дата обращения: 4 июля 2011. Архивировано 16 сентября 2010 года.
  5. К. Кноп. Сократ мне друг, но истина дороже Архивная копия от 21 января 2021 на Wayback Machine // Компьютерра. — 1999. — № 47 (23 ноября).
  6. Наш кот родил трех котят — двух белых и одного афроамериканца

Литература

[править | править код]
  • Автоматический перевод : [арх. 3 января 2023] / И. М. Богуславский // Большая российская энциклопедия : [в 35 т.] / гл. ред. Ю. С. Осипов. — М. : Большая российская энциклопедия, 2004—2017.
  • Гращенко Л. А., Клышинский Э. С., Тумковский С. Р., Усманов З. Д. Концептуальная модель системы русско-таджикского машинного перевода // Доклады Академии наук Республики Таджикистан. — 2011. — том 54, № 4. — С. 279—285.
  • О. С. Кулагина. О современном состоянии машинного перевода // Математические вопросы кибернетики, вып. 3, М.: Наука, 1991, стр. 5—50. Библиография из 140 названий. ISBN 5-02-014323-5.
  • Николаев И. С., Митренина О. В., Ландо Т. М. Прикладная и компьютерная лингвистика. — М.: Издательская группа URSS, 2017.
  • Будущее машинного перевода // Компьютерра № 21, 5 июня 2002.