Машинный перевод: различия между версиями

[отпатрулированная версия]

Содержимое удалено Содержимое добавлено

Линейный

Текущая версия от 04:01, 4 октября 2024

Маши́нный перево́д — процесс автоматического перевода текста или речи с одного естественного языка на другой, осуществляемый искусственным интеллектом без участия человека. Ранние попытки использовать компьютеры для перевода строились на основе запрограммированных словарей и лингвистических правил, более современные строятся на основе вероятностного подхода — это статистический и нейронный машинный перевод.

История машинного перевода

Идеи алгоритмов для перевода с одного языка на другой предшествовали изобретению компьютера. В середине 1930-х годов французский инженер армянского происхождения Жорж Артцруни и советский учёный и педагог Пётр Смирнов-Троянский независимо друг от друга пытались запатентовать «машины для перевода». Более проработанный вариант Смирнова-Троянского включал в себя, кроме автоматического двуязычного словаря, схему для кодирования межъязыковых грамматических ролей, основанную на эсперанто и общие концепции анализа и синтеза текста. Тем не менее, идеи Смирнова-Троянского не получили известности до 1950-х годов^[1].

Мысль использовать ЭВМ для перевода была высказана в 1947 году в США — её сформулировал математик Уоррен Уивер^[англ.], работавший в то время в Фонде Рокфеллера, в письме Норберту Винеру. В июле 1949 года Уоррен подготовил меморандум, в котором свёл существующие на тот момент предложения в области машинного перевода — они строились на базе накопленных во время Второй мировой войны наработок в области криптоанализа шифров, теории информации Клода Шеннона и идей о неких универсальных принципах, на которых строятся все естественные языки. В течение следующих лет в нескольких американских университетах начались работы по созданию систем машинного перевода на базе ЭВМ^[1]. Первая публичная демонстрация такой системы – так называемый Джорджтаунский эксперимент — состоялась в 1954 году. Она была создана на базе сотрудничества между компанией IBM и Джорджтаунским университетом. Хотя Джорджтаунский эксперимент использовал очень ограниченный словарь и простейшую грамматику, он привлёк к себе огромный интерес и подтолкнул учёных в разных странах мира к исследованиям в этой области^[1].

Ранние системы представляли собой просто большие двуязычные словари и системы правил, по которым для каждого слова из целевого языка подбирался подходящий эквивалент в другом языке. Тем не менее, учёные быстро осознали, что синтаксические правила для выстраивания слов в правильном порядке становятся непомерно сложными. Машинный перевод требовал более систематических методов синтаксического анализа. Исследования в области машинного перевода в 1950-1960-х годах проводились под влиянием новых лингвистические теорий, особенно моделей формальных грамматик, как трансформационно-генеративная грамматика, грамматика зависимостей и стратификационная грамматика. С середины 1950-х по середину 1960-х годов исследователи в области машинного перевода сохраняли оптимизм, надеясь на прорыв в самом близком будущем. В начале 1960-х годов функционировало несколько работающих систем машинного перевода — так, Управление иностранных технологий ВВС США эксплуатировал компьютер Mark II, созданный совместно IBM и Вашингтонским университетом; разработки Джорджтаунского университета использовали Комиссия по атомной энергии США и Европейское сообщество по атомной энергии в своём центре в Италии^[1].

В 1964 году правительство США созвало специальную Консультативную комиссию по автоматической обработке языка (ALPAC^[англ.]). Эта группа в 1966 году опубликовала отчёт, в котором делала вывод о нерентабельности систем машинного перевода: машинный перевод был медленнее, ниже по качеству и при этом обходился вдвое дороже, чем услуги людей-переводчиков. ALPAC считала дальнейшие инвестиции в эту область неразумными, предлагая вместо этого сосредоточиться на разработке систем, которые помогали бы работать переводчикам — например, компьютерных словарей — а также вести дальнейшие теоретические исследования в области компьютерной лингвистики. Отчёт ALPAC привёл к фактическому прекращению любых разработок в области машинного перевода в США и также повлиял на исследователей в СССР и Европе. Тем не менее, в некоторых странах — Германии, Канаде, Франции — исследования в этой области продолжались. В 1970 году ВВС США начала эксплуатировать систему SYSTRAN; в 1976 году Европейская комиссия начала использовать ту же систему SYSTRAN для перевода между европейскими языками своих быстро растущих объемов документов. В том же году в Канаде была запущена разработанная Монреальским университетом система Meteo для машинного перевода прогнозов погоды. В СССР в 1960-е годы разработки в области машинного перевода были сосредоточены в основном на области перевода научно-технической документации с английского на русский язык и обратно, рассчитанной на малое количество потенциальных пользователей — в этой области скорость доступа к информации был важнее, чем недостатки машинного перевода^[1].

К началу 1980-х годов основные системы машинного перевода строились на базе компьютеров-мейнфреймов. Помимо SYSTRAN, поддерживающей к этому времени уже много языковых пар, появились системы Logos для переводов в парах английский-немецкий и английский-французский; собственная система Панамериканской организации здравоохранения^[англ.] для переводов в паре английский-испанский; система METAL MT^[англ.], разработанная Техасским университетом в Остине и немецкой компанией Siemens, а также ряд систем для перевода в паре английский-японский от японских производителей. В 1980-х годах широко распространились персональные компьютеры и текстовые процессоры — появилось огромное количество гораздо более дешёвых систем машинного перевода, чем прежде, в том числе продукты компаний ALPS, Weidner Communications^[англ.], Linguistic Products и Globalink, и множество японских — свои микрокомпьютеры для машинного перевода выпускали компании Sharp, NEC, OKI, Mitsubishi, Sanyo и другие^[1]. В научной среде также появилось множество исследований, связанных с «непрямым» переводом через промежуточные и иногда межъязыковые формы представления информации, семантическим, морфологическим и синтаксическим анализом, а также составлением нелингвистических баз знаний. В это время функционировали и два крупных международных исследовательских проекта — Eurotra^[англ.], который финансировали Европейские сообщества, и японский Центр международного сотрудничества в области компьютеризации, объединяющий также учёных из Китая, Индонезии и Таиланда^[1].

Система Candide, созданная группой специалистов из IBM на рубеже 1980-х и 1990-х годов, стала первой демонстрацией нового подхода — статистического машинного перевода. В это же время несколько японских исследовательских групп предлагали и ещё одно решение проблемы машинного перевода — корпусные системы, где перевод строился на готовых примерах. Создавались и проекты систем машинного перевода на основе правил, как проект Catalyst университета Карнеги — Меллона. Появились и коммерческие системы памяти переводов, как Trados, позволявшие людям-переводчикам легко обращаться к уже имеющимся переводам текстов. В 1990-е годы также начались исследования в области машинного перевода речи^[1].

В настоящее время существует множество коммерческих проектов машинного перевода. Одним из пионеров в области машинного перевода была компания SYSTRAN. В России большой вклад в развитие машинного перевода внесла группа под руководством проф. Р. Г. Пиотровского (Российский государственный педагогический университет имени А. И. Герцена, Санкт-Петербург).

Подходы к машинному переводу

Машинный перевод на основе правил

Статистический машинный перевод

Статистический подход в машинном переводе основанная на сравнении больших объёмов языковых пар. Языковые пары — тексты, содержащие предложения на одном языке и соответствующие им предложения на втором, могут быть как вариантами написания двух предложений человеком — носителем двух языков, так и набором предложений и их переводов, выполненных человеком. Таким образом статистический машинный перевод обладает свойством «самообучения». Чем больше в распоряжении имеется языковых пар и чем точнее они соответствуют друг другу, тем лучше результат статистического машинного перевода.

Под понятием «статистического машинного перевода» подразумевается общий подход к решению проблемы перевода, который основан на поиске наиболее вероятного перевода предложения с использованием данных, полученных из двуязычной совокупности текстов. В качестве примера двуязычной совокупности текстов можно назвать парламентские отчёты, которые представляют собой протоколы дебатов в парламенте. Двуязычные парламентские отчёты издаются в Канаде, Гонконге и других странах; официальные документы Европейского экономического сообщества издаются на 11 языках; а Организация объединённых наций публикует документы на нескольких языках. Как оказалось, эти материалы представляют собой бесценные ресурсы для статистического машинного перевода.

Нейронный машинный перевод

Философские обоснования

В 1960-х годах Станислав Лем обобщал высказывания о проблеме машинного перевода и связи с пониманием текста самой машиной (что связано, например, с обсуждением сформулированной в 1980 году концепции «китайской комнаты»):

... мы настаиваем на наделении машин-переводчиков «полнотой внутренней жизни» человека; однако мы просто не знаем, в какой мере можно «недодать личность» машине, которая призвана хорошо переводить. Мы не знаем, можно ли «понимать», не обладая «личностью» хотя бы в зачатке. <…> Не представляется возможным эффективно использовать операциональный язык до конца в качестве орудия перевода в сфере языков дискурсивных — мыслительных. Либо машины будут действовать «понимающе», либо по-настоящему эффективных машин-переводчиков не будет вовсе^[2].

Качество перевода

Качество перевода зависит от тематики и стиля исходного текста, а также грамматической, синтаксической и лексической родственности языков, между которыми производится перевод. Машинный перевод художественных текстов практически всегда оказывается неудовлетворительного качества. Тем не менее для технических документов при наличии специализированных машинных словарей и некоторой настройке системы на особенности того или иного типа текстов возможно получение перевода приемлемого качества, который нуждается лишь в небольшой редакторской корректировке.^{[источник не указан 4592 дня]} Чем более формализован стиль исходного документа, тем большего качества перевода можно ожидать. Самых лучших результатов при использовании машинного перевода можно достичь для текстов, написанных в техническом (различные описания и руководства) и официально-деловом стиле.

Применение машинного перевода без настройки на тематику (или с намеренно неверной настройкой) служит предметом многочисленных бытующих в Интернете шуток. Из старых и наиболее популярных примеров таких шуток наиболее известен текст перевода документации к драйверу мыши, известный как «Гуртовщики Мыши», заявленный как «перевод компьютерной документации системой машинного перевода Poliglossum на основе медицинского, коммерческого и юридического словарей»^[3]^{[комм. 1]}. Из кратких — фраза «Our cat gave birth to three kittens — two whites and one black», которую онлайн-переводчик «ПРОМТ» (версия 7.0, 2007) превращал в «Наш кот родил трёх котят — двух белых и одного афроамериканца»^[6]. Если «афроамериканца» ещё можно было сделать «чёрным», написав «black kitten», то «коту» так и не получалось сменить пол: например, female cat переводился как «самка кот».

Чаще всего подобные шутки связаны с тем, что программа не распознаёт контекст фразы и переводит термины дословно, к тому же не отличая собственных имён от обычных слов. Тот же переводчик ПРОМТ превращал «Лев Толстой» в «Lion Thick» («толстый лев»), «bra-ket notation» в «примечание Кети лифчика», «Lie algebra» — в «алгебру Лжи», «eccentricity vector» — в «вектор оригинальности», «Shawnee Smith» в «индеец племени шони Смит», популярную в сериале «Игра в кальмара» игру «Red light, green light» — в «красный свет, зелёный свет» и т. п. Переводчик Google, наоборот, слово «rice» часто принимал за фамилию госсекретаря США.

См. также

↑ Впрочем, это не так: Polyglossum (sic) — это электронный словарь^[4], программа того же класса, что и Lingvo, самостоятельно переводить не способная. В то время он существовал в версиях для DOS и Windows 3.x и, уступая Lingvo и Context по качеству общего словаря, имел рекордный объём специализированных словарей. К тому же отдельные ошибки перевода выдают подделку — вероятно, после машинного перевода текст редактировался вручную : «Замечательный пример текста, полученного якобы при помощи медико-биологического словаря в результате перевода руководства по работе с драйверами мыши, называется „Гуртовщики Мыши“ … не верю в чистоту эксперимента: наверняка там не обошлось без поправок, внесенных в текст рукой человека^[5]».

Примечания

↑ ¹ ² ³ ⁴ ⁵ ⁶ ⁷ ⁸ Hutchins, John. The history of machine translation in a nutshell (англ.) // hutchinsweb.me.uk. — 2014. Архивировано 22 февраля 2024 года.
↑ «Summa Technologiae», 1963 (или 2-е изд. 1967), глава 4.
↑ Щелчок по почкам // Хакер. — 1999. — № 1. — С. 98. — ISSN 1609-1019. Архивировано 11 декабря 2022 года.
↑ Polyglossum на официальном сайте (неопр.). Дата обращения: 4 июля 2011. Архивировано 16 сентября 2010 года.
↑ К. Кноп. Сократ мне друг, но истина дороже Архивная копия от 21 января 2021 на Wayback Machine // Компьютерра. — 1999. — № 47 (23 ноября).
↑ Наш кот родил трех котят — двух белых и одного афроамериканца

Литература

В Викисловаре есть статья «машинный перевод»

Автоматический перевод : [арх. 3 января 2023] / И. М. Богуславский // Большая российская энциклопедия : [в 35 т.] / гл. ред. Ю. С. Осипов. — М. : Большая российская энциклопедия, 2004—2017.
Гращенко Л. А., Клышинский Э. С., Тумковский С. Р., Усманов З. Д. Концептуальная модель системы русско-таджикского машинного перевода // Доклады Академии наук Республики Таджикистан. — 2011. — том 54, № 4. — С. 279—285.
О. С. Кулагина. О современном состоянии машинного перевода // Математические вопросы кибернетики, вып. 3, М.: Наука, 1991, стр. 5—50. Библиография из 140 названий. ISBN 5-02-014323-5.
Николаев И. С., Митренина О. В., Ландо Т. М. Прикладная и компьютерная лингвистика. — М.: Издательская группа URSS, 2017.
Будущее машинного перевода // Компьютерра № 21, 5 июня 2002.

Ссылки

Машинный перевод. От холодной войны до диплёрнинга

[6] Впрочем, это не так: Polyglossum (sic) — это электронный словарь^[4], программа того же класса, что и Lingvo, самостоятельно переводить не способная. В то время он существовал в версиях для DOS и Windows 3.x и, уступая Lingvo и Context по качеству общего словаря, имел рекордный объём специализированных словарей. К тому же отдельные ошибки перевода выдают подделку — вероятно, после машинного перевода текст редактировался вручную : «Замечательный пример текста, полученного якобы при помощи медико-биологического словаря в результате перевода руководства по работе с драйверами мыши, называется „Гуртовщики Мыши“ … не верю в чистоту эксперимента: наверняка там не обошлось без поправок, внесенных в текст рукой человека^[5]».

[Hutchins_2014-1] ¹ ² ³ ⁴ ⁵ ⁶ ⁷ ⁸ Hutchins, John. The history of machine translation in a nutshell (англ.) // hutchinsweb.me.uk. — 2014. Архивировано 22 февраля 2024 года.

[2] «Summa Technologiae», 1963 (или 2-е изд. 1967), глава 4.

[3] Щелчок по почкам // Хакер. — 1999. — № 1. — С. 98. — ISSN 1609-1019. Архивировано 11 декабря 2022 года.

[4] Polyglossum на официальном сайте (неопр.). Дата обращения: 4 июля 2011. Архивировано 16 сентября 2010 года.

[5] К. Кноп. Сократ мне друг, но истина дороже Архивная копия от 21 января 2021 на Wayback Machine // Компьютерра. — 1999. — № 47 (23 ноября).

[7] Наш кот родил трех котят — двух белых и одного афроамериканца

[1]

[2]

[3]

[комм. 1]

[6]

[4]

[5]

@@ Строка 2: / Строка 2: @@
 {{эта статья|о переводчиках — компьютерных программах|Переводчик|о переводчиках-людях}}
-'''Маши́нный перево́д''' — процесс перевода текстов (письменных, а в идеале и устных) с одного [[Естественный язык|естественного языка]] на другой с помощью специальной компьютерной [[Программа (компьютер)|программы]]. Так же называется направление научных исследований, связанных с построением подобных систем.
+'''Маши́нный перево́д''' — процесс автоматического [[перевод]]а текста или речи с одного [[Естественный язык|естественного языка]] на другой, осуществляемый [[искусственный интеллект|искусственным интеллектом]] без участия человека. Ранние попытки использовать [[компьютер]]ы для перевода строились на основе запрограммированных словарей и лингвистических правил, более современные строятся на основе вероятностного подхода — это [[статистический машинный перевод|статистический]] и [[нейронный машинный перевод]].
+== История машинного перевода ==
-== Формы организации взаимодействия ЭВМ и человека при машинном переводе ==
+{{перевести|en|History of machine translation}}
-* С постредактированием: исходный текст перерабатывается машиной, а человек-редактор исправляет результат.
-* С предредактированием: человек приспосабливает текст к обработке машиной (устраняет возможные неоднозначные прочтения, упрощает и размечает текст), после чего начинается программная обработка.
-* С интерредактированием: человек вмешивается в работу системы перевода, разрешая трудные случаи.
-* Смешанные системы (например, одновременно с пред- и постредактированием).
+Идеи алгоритмов для перевода с одного языка на другой предшествовали изобретению [[компьютер]]а. В середине 1930-х годов французский инженер армянского происхождения Жорж Артцруни и советский учёный и педагог [[Смирнов-Троянский, Пётр Петрович|Пётр Смирнов-Троянский]] независимо друг от друга пытались запатентовать «машины для перевода». Более проработанный вариант Смирнова-Троянского включал в себя, кроме автоматического двуязычного словаря, схему для кодирования межъязыковых грамматических ролей, основанную на [[эсперанто]] и общие концепции анализа и синтеза текста. Тем не менее, идеи Смирнова-Троянского не получили известности до 1950-х годов<ref name="Hutchins 2014">{{Статья |ссылка=https://aclanthology.org/www.mt-archive.info/10/Hutchins-2014.pdf |автор=Hutchins, John |заглавие=The history of machine translation in a nutshell |год=2014 |язык=en |издание=hutchinsweb.me.uk |archivedate=2024-02-22 |archiveurl=https://web.archive.org/web/20240222075101/https://aclanthology.org/www.mt-archive.info/10/Hutchins-2014.pdf }}</ref>.
-=== Автоматизированный перевод ===
-Вместо ''«машинный»'' иногда употребляется слово '''автоматический''', что не влияет на смысл. Однако термин '''[[автоматизированный перевод]]''' имеет совсем другое значение — при нём программа просто ''помогает человеку'' переводить тексты.
+Мысль использовать ЭВМ для перевода была высказана в [[1947 год]]у в [[США]] — её сформулировал математик {{iw|Уивер, Уоррен|Уоррен Уивер|en|Warren Weaver}}, работавший в то время в [[Фонд Рокфеллера|Фонде Рокфеллера]], в письме [[Винер, Норберт|Норберту Винеру]]. В июле 1949 года Уоррен подготовил меморандум, в котором свёл существующие на тот момент предложения в области машинного перевода — они строились на базе накопленных во время Второй мировой войны наработок в области криптоанализа шифров, [[Теория информации|теории информации]] [[Шеннон, Клод|Клода Шеннона]] и идей о неких универсальных принципах, на которых строятся все естественные языки. В течение следующих лет в нескольких американских университетах начались работы по созданию систем машинного перевода на базе ЭВМ<ref name="Hutchins 2014"/>. Первая публичная демонстрация такой системы – так называемый [[Джорджтаунский эксперимент]] — состоялась в [[1954 год]]у. Она была создана на базе сотрудничества между компанией [[IBM]] и [[Джорджтаунский университет|Джорджтаунским университетом]]. Хотя Джорджтаунский эксперимент использовал очень ограниченный словарь и простейшую [[Грамматика (описание языка)|грамматику]], он привлёк к себе огромный интерес и подтолкнул учёных в разных странах мира к исследованиям в этой области<ref name="Hutchins 2014"/>.
-Автоматизированный перевод предполагает такие формы взаимодействия:
-* Частично автоматизированный перевод: например, использование переводчиком-человеком компьютерных [[словарь|словарей]].
-* Системы с разделением труда: компьютер обучен переводить только фразы жёстко заданной структуры (но делает это так, чтобы исправлять за ним не требовалось), а всё, не уложившееся в схему, отдаёт человеку.
+Ранние системы представляли собой просто большие двуязычные словари и системы правил, по которым для каждого слова из целевого языка подбирался подходящий эквивалент в другом языке. Тем не менее, учёные быстро осознали, что синтаксические правила для выстраивания слов в правильном порядке становятся непомерно сложными. Машинный перевод требовал более систематических методов синтаксического анализа. Исследования в области машинного перевода в 1950-1960-х годах проводились под влиянием новых лингвистические теорий, особенно моделей [[Формальная грамматика|формальных грамматик]], как [[Генеративная лингвистика|трансформационно-генеративная грамматика]], [[грамматика зависимостей]] и стратификационная грамматика. С середины 1950-х по середину 1960-х годов исследователи в области машинного перевода сохраняли оптимизм, надеясь на прорыв в самом близком будущем. В начале 1960-х годов функционировало несколько работающих систем машинного перевода — так, Управление иностранных технологий [[Военно-воздушные силы США|ВВС США]] эксплуатировал компьютер Mark II, созданный совместно IBM и [[Вашингтонский университет|Вашингтонским университетом]]; разработки Джорджтаунского университета использовали [[Комиссия по атомной энергии США]] и [[Европейское сообщество по атомной энергии]] в своём центре в Италии<ref name="Hutchins 2014"/>.
-В англоязычной терминологии также различаются термины {{lang-en|machine translation, MT}} (полностью автоматический перевод) и {{lang-en|machine-aided}} или {{lang-en|machine-assisted translation (MAT)}} (автоматизированный); если же надо обозначить и то, и другое, пишут M(A)T.
+В 1964 году правительство США созвало специальную Консультативную комиссию по автоматической обработке языка ({{iw|ALPAC|ALPAC|en|ALPAC}}). Эта группа в 1966 году опубликовала отчёт, в котором делала вывод о нерентабельности систем машинного перевода: машинный перевод был медленнее, ниже по качеству и при этом обходился вдвое дороже, чем услуги людей-переводчиков. ALPAC считала дальнейшие инвестиции в эту область неразумными, предлагая вместо этого сосредоточиться на разработке систем, которые помогали бы работать переводчикам — например, компьютерных словарей — а также вести дальнейшие теоретические исследования в области [[Компьютерная лингвистика|компьютерной лингвистики]]. Отчёт ALPAC привёл к фактическому прекращению любых разработок в области машинного перевода в США и также повлиял на исследователей в СССР и Европе. Тем не менее, в некоторых странах — Германии, Канаде, Франции — исследования в этой области продолжались. В 1970 году ВВС США начала эксплуатировать систему [[SYSTRAN]]; в 1976 году [[Европейская комиссия]] начала использовать ту же систему SYSTRAN для перевода между европейскими языками своих быстро растущих объемов документов. В том же году в Канаде была запущена разработанная [[Монреальский университет|Монреальским университетом]] система Meteo для машинного перевода прогнозов погоды. В СССР в 1960-е годы разработки в области машинного перевода были сосредоточены в основном на области перевода научно-технической документации с английского на русский язык и обратно, рассчитанной на малое количество потенциальных пользователей — в этой области скорость доступа к информации был важнее, чем недостатки машинного перевода<ref name="Hutchins 2014"/>.
-Существуют несколько принципиально разных подходов к построению алгоритмов машинного перевода: [[Машинный перевод на основе правил|основанный на правилах]] (rule-based), статистический, или [[Статистический машинный перевод|основанный на статистике]] (statistical-based), [[нейронный машинный перевод]] (neural machine translation, NMT). Первый подход является традиционным и используется большинством разработчиков систем машинного перевода (ПРОМТ в России, SYSTRAN во Франции, Linguatec в Германии и др.)<ref>{{Cite web |url=http://filolingvia.com/publ/25-1-0-898 |title=Машинный перевод: правила против статистики |access-date=2011-12-22 |archive-date=2011-11-23 |archive-url=https://web.archive.org/web/20111123195727/http://filolingvia.com/publ/25-1-0-898 |deadlink=no }}</ref> Ко второму типу относится популярный сервис [[Яндекс.Переводчик]], [[Переводчик Google]], а также новый сервис от ABBYY<ref>{{Cite web |url=http://joomla-master.org/books/html-css-php-cms/perevesti-tekst-v-onlaiene-pomojet-kompaniya-abbyy.html |title=Новый подход ABBYY к переводу текстов |access-date=2011-12-22 |archive-date=2012-01-20 |archive-url=https://web.archive.org/web/20120120032203/http://joomla-master.org/books/html-css-php-cms/perevesti-tekst-v-onlaiene-pomojet-kompaniya-abbyy.html |deadlink=no }}</ref>. Сейчас большинство систем являются гибридными — сочетая правила, статистику и нейронные сети.
+К началу 1980-х годов основные системы машинного перевода строились на базе компьютеров-[[мейнфрейм]]ов. Помимо SYSTRAN, поддерживающей к этому времени уже много языковых пар, появились системы Logos для переводов в парах английский-немецкий и английский-французский; собственная система {{iw|Панамериканская организация здравоохранения|Панамериканской организации здравоохранения|en|Pan American Health Organization}} для переводов в паре английский-испанский; система {{iw|METAL MT}}, разработанная [[Техасский университет в Остине|Техасским университетом в Остине]] и немецкой компанией [[Siemens]], а также ряд систем для перевода в паре английский-японский от японских производителей. В 1980-х годах широко распространились [[Персональный компьютер|персональные компьютеры]] и [[Текстовый процессор|текстовые процессоры]] — появилось огромное количество гораздо более дешёвых систем машинного перевода, чем прежде, в том числе продукты компаний ALPS, {{iw|Weidner Communications}}, Linguistic Products и Globalink, и множество японских — свои микрокомпьютеры для машинного перевода выпускали компании [[Sharp]], [[NEC]], [[OKI]], [[Mitsubishi]], [[Sanyo]] и другие<ref name="Hutchins 2014"/>. В научной среде также появилось множество исследований, связанных с «непрямым» переводом через промежуточные и иногда межъязыковые формы представления информации, семантическим, морфологическим и синтаксическим анализом, а также составлением нелингвистических баз знаний. В это время функционировали и два крупных международных исследовательских проекта — {{iw|Eurotra}}, который финансировали [[Европейские сообщества]], и японский Центр международного сотрудничества в области компьютеризации, объединяющий также учёных из Китая, Индонезии и Таиланда<ref name="Hutchins 2014"/>.
-== Статистический машинный перевод ==
-[[Статистический машинный перевод]] — это разновидность машинного перевода текста, основанная на сравнении больших объёмов языковых пар. Языковые пары — тексты, содержащие предложения на одном языке и соответствующие им предложения на втором, могут быть как вариантами написания двух предложений человеком — носителем двух языков, так и набором предложений и их переводов, выполненных человеком. Таким образом статистический машинный перевод обладает свойством «самообучения». Чем больше в распоряжении имеется языковых пар и чем точнее они соответствуют друг другу, тем лучше результат статистического машинного перевода.
-Под понятием «статистического машинного перевода» подразумевается общий подход к решению проблемы перевода, который основан на поиске наиболее вероятного перевода предложения с использованием данных, полученных из двуязычной совокупности текстов. В качестве примера двуязычной совокупности текстов можно назвать парламентские отчёты, которые представляют собой протоколы дебатов в парламенте. Двуязычные парламентские отчёты издаются в Канаде, Гонконге и других странах; официальные документы Европейского экономического сообщества издаются на 11 языках; а Организация объединённых наций публикует документы на нескольких языках. Как оказалось, эти материалы представляют собой бесценные ресурсы для статистического машинного перевода.
+Система Candide, созданная группой специалистов из [[IBM]] на рубеже 1980-х и 1990-х годов, стала первой демонстрацией нового подхода — [[Статистический машинный перевод|статистического машинного перевода]]. В это же время несколько японских исследовательских групп предлагали и ещё одно решение проблемы машинного перевода — [[Корпус текстов|корпусные]] системы, где перевод строился на готовых примерах. Создавались и проекты систем машинного перевода на основе правил, как проект Catalyst [[Университет Карнеги — Меллона|университета Карнеги — Меллона]]. Появились и коммерческие системы [[Память переводов|памяти переводов]], как [[Trados]], позволявшие людям-переводчикам легко обращаться к уже имеющимся переводам текстов. В 1990-е годы также начались исследования в области машинного перевода речи<ref name="Hutchins 2014"/>.
-== История машинного перевода ==
-{{перевести|en|History of machine translation}}
+В настоящее время существует множество коммерческих проектов машинного перевода. Одним из пионеров в области машинного перевода была компания [[SYSTRAN]]. В [[Россия|России]] большой вклад в развитие машинного перевода внесла группа под руководством проф. [[Пиотровский, Раймунд Генрихович|Р. Г. Пиотровского]] ([[Российский государственный педагогический университет имени А. И. Герцена]], [[Санкт-Петербург]]).
-Мысль использовать ЭВМ для перевода была высказана в [[1947 год]]у в [[США]], сразу после появления первых ЭВМ. Первая публичная [[демонстрация]] машинного перевода (так называемый [[Джорджтаунский эксперимент]]) состоялась в [[1954 год]]у. Несмотря на примитивность той системы (словарь в 250 слов, [[Грамматика (описание языка)|грамматика]] из 6 правил, перевод нескольких простых фраз), этот эксперимент получил широкий резонанс: начались исследования в [[Англия|Англии]], [[Болгария|Болгарии]], [[ГДР]], [[Италия|Италии]], [[Китай|Китае]], [[Франция|Франции]], [[ФРГ]], [[Япония|Японии]] и других странах; в том же 1954 году и в [[СССР]].
+== Подходы к машинному переводу ==
-К середине [[1960-е|1960-х]] в США для практического использования были предоставлены две системы русско-английского перевода:
+=== Машинный перевод на основе правил ===
-* MARK (в Департаменте иностранной техники ВВС США);
+{{main|Машинный перевод на основе правил}}
-* GAT (разработка Джорджтаунского университета, использовалась в Национальной лаборатории атомной энергии в Окридже и в центре Евратома в г. Испра, Италия).
+{{заготовка раздела}}
+=== Статистический машинный перевод ===
-Однако созданная для оценки подобных систем комиссия {{iw|ALPAC|ALPAC|en|ALPAC}} пришла к выводу, что в силу низкого качества машинно переведённых текстов эта деятельность в условиях США нерентабельна. Хотя комиссия рекомендовала продолжать и углублять теоретические разработки, в целом её выводы привели к росту [[пессимизм]]а, снижению финансирования, часто к полному прекращению работ по этой тематике.
+{{main|Статистический машинный перевод}}
+Статистический подход в машинном переводе основанная на сравнении больших объёмов языковых пар. Языковые пары — тексты, содержащие предложения на одном языке и соответствующие им предложения на втором, могут быть как вариантами написания двух предложений человеком — носителем двух языков, так и набором предложений и их переводов, выполненных человеком. Таким образом статистический машинный перевод обладает свойством «самообучения». Чем больше в распоряжении имеется языковых пар и чем точнее они соответствуют друг другу, тем лучше результат статистического машинного перевода.
+Под понятием «статистического машинного перевода» подразумевается общий подход к решению проблемы перевода, который основан на поиске наиболее вероятного перевода предложения с использованием данных, полученных из двуязычной совокупности текстов. В качестве примера двуязычной совокупности текстов можно назвать парламентские отчёты, которые представляют собой протоколы дебатов в парламенте. Двуязычные парламентские отчёты издаются в Канаде, Гонконге и других странах; официальные документы Европейского экономического сообщества издаются на 11 языках; а Организация объединённых наций публикует документы на нескольких языках. Как оказалось, эти материалы представляют собой бесценные ресурсы для статистического машинного перевода.
-Тем не менее, в ряде стран исследования продолжались, чему способствовал постоянный прогресс вычислительной техники. Особенно существенным фактором стало появление мини- и [[Персональный компьютер|персональных компьютеров]], а с ними всё более сложных словарных, [[Поисковая система|поисковых]] и т. п. систем, ориентированных на работу с естественно-языковыми данными. Росла и необходимость в переводе как таковом ввиду роста международных связей. Все это привело к новому подъёму этой области, наступившему примерно с середины [[1970-е|1970-х]]. В [[1980-е]] наступило время широкого практического использования переводческих систем, сложился рынок коммерческих разработок по этой теме.
+=== Нейронный машинный перевод ===
-Впрочем, мечты, с которыми человечество полвека назад взялось за задачу машинного перевода, в значительной мере остаются мечтами: высококачественный перевод текстов широкой тематики по-прежнему недостижим. Однако несомненным является ускорение работы переводчика при использовании систем машинного перевода: по оценкам конца 1980-х, до пяти раз.
+{{main|Нейронный машинный перевод}}
+{{заготовка раздела}}
-В настоящее время существует множество коммерческих проектов машинного перевода. Одним из пионеров в области машинного перевода была компания [[SYSTRAN]]. В [[Россия|России]] большой вклад в развитие машинного перевода внесла группа под руководством проф. [[Пиотровский, Раймунд Генрихович|Р. Г. Пиотровского]] ([[Российский государственный педагогический университет имени А. И. Герцена]], [[Санкт-Петербург]]).
 == Философские обоснования ==
@@ Строка 71: / Строка 65: @@
 == Литература ==
 {{Викисловарь|машинный перевод}}
-* {{БРЭ|Автоматический перевод|id=1799594|автор=И. М. Богуславский}}
+* {{БРЭ|автор=И. М. Богуславский|статья=Автоматический перевод|ссылка=https://old.bigenc.ru/linguistics/text/1799594|архив=https://web.archive.org/web/20230103215725/https://bigenc.ru/linguistics/text/1799594|архив дата=2023-01-03}}
 * ''Гращенко Л. А., Клышинский Э. С., Тумковский С. Р., Усманов З. Д.'' [http://elibrary.ru/item.asp?id=16498144 Концептуальная модель системы русско-таджикского машинного перевода] // Доклады Академии наук Республики Таджикистан. — 2011. — том 54, № 4. — С. 279—285.
 * ''О. С. Кулагина.'' О современном состоянии машинного перевода // Математические вопросы кибернетики, вып. 3, М.: Наука, 1991, стр. 5—50. Библиография из 140 названий. ISBN 5-02-014323-5.
@@ Строка 88: / Строка 82: @@
 [[Категория:Обработка естественного языка]]
 [[Категория:Переводоведение]]
-[[Категория:Применение искусственного интеллекта]]

Обработка естественного языка
Общие определения	Языковая модель Корпус текстов Речевой корпус Стоп-слова Мешок слов AI-полнота N-грамма Биграммный шифр Триграмма
Анализ текста	Сегментация текста^[англ.] Частеречная разметка Поверхностно-синтаксический анализ Обработка сложных слов^[англ.] Извлечение коллокаций^[англ.] Стемминг Лемматизация Распознавание именованных сущностей^[англ.] Разрешение кореферентности Анализ тональности текста Извлечение концептов^[англ.] Синтаксический анализ Разрешение лексической многозначности Извлечение терминологии^[англ.] Извлечение информации Идентификация языка Определение регистра^[англ.]
Реферирование	Извлечение предложений^[англ.] Генерация реферата Многодокументное реферирование^[англ.] Упрощение текста^[англ.]
Машинный перевод	Автоматизированный Гибридный Интерлингвальный^[англ.] На основе правил На основе примеров На основе словаря^[англ.] На основе трансформации Нейронный Статистический Синхронный
Идентификация и сбор данных	Распознавание речи Синтез речи Оптическое распознавание символов Генерация текста
Тематическая модель	Размещение патинко Латентное размещение Дирихле Латентно-семантический анализ
Рецензирование	Автоматизированная оценка сочинений^[англ.] Конкордансер Предиктивный ввод текста Система проверки грамматики^[англ.] Система проверки правописания Угадывание синтаксиса^[англ.]
Интерфейс на естественном языке^[англ.]	Виртуальный ассистент Виртуальный собеседник Вопросно-ответная система Голосовой интерфейс Интерактивная литература

Искусственный интеллект
История	История искусственного интеллекта Зима искусственного интеллекта Дартмутский семинар Регламент ЕС об искусственном интеллекте
Философия	Тест Тьюринга Китайская комната Сильный и слабый искусственные интеллекты Дружественный искусственный интеллект Этика искусственного интеллекта Проблема контроля
Направления	Агентный подход Адаптивное управление Инженерия знаний Модель жизнеспособной системы Машинное обучение Нейронная сеть Нечёткая логика Обработка естественного языка Персональный искусственный интеллект Распознавание образов Роевой интеллект Символический ИИ Эволюционные алгоритмы Экспертная система
Применение	Голосовое управление Задача классификации Классификация документов Кластеризация документов Кластерный анализ Локальный поиск Машинный перевод Оптическое распознавание символов Распознавание речи Распознавание рукописного ввода Игровой ИИ
Исследователи	Чарлз Бэббидж Владимир Вапник Джозеф Вейценбаум Норберт Винер Виктор Глушков Владимир Городецкий Ян Лекун Алексей Ляпунов Джон Маккарти Марвин Мински Аллен Ньюэлл Сеймур Пейперт Джуда Перл Гермоген Поспелов Дмитрий Поспелов Фрэнк Розенблатт Герберт Александер Саймон Алан Тьюринг Патрик Уинстон Виктор Финн Сергей Фомин Демис Хассабис Джеффри Хинтон Ноам Хомский Клод Шеннон Эндрю Ын Элиезер Юдковский