平行文本：修订间差异

删除的内容添加的内容

行内

2022年1月15日 (六) 18:12的最新版本

平行文本（英語：parallel text，又作平行語料）是与译文并行放置的文本。平行文本对齐 是指确定平行文本中原文和译文的对应句子。洛布古典丛书和克莱梵语丛书就是双语文本的两个例子。圣经参考书中可能会同时包含原文和译文或者多种译文，以便于比较和研究；俄利根的《圣经六国译文合璧》为旧约并排提供了六个版本。另外还要注意的一个最著名例子是罗塞塔石碑。^[1]

平行文本的大集合被称为平行语料库 （见语料库）。在句子层面对齐平行语料库是很多语言学研究领域的前提条件。在翻译过程中，翻译人员可以对句子进行拆分、合并、删除、插入或重新排列。这使得对齐任务变得异常重要。

双语文本

在翻译研究领域，双语文本 是指由给定文本的源语言和目标语言版本组成的合并文档。

双语文本由一种称为对齐工具 或双语文本工具 的软件生成，这种软件可以自动对齐同一文本的原始版本和翻译版本。这种软件通常按句子对齐两个文本。双语文本的集合被称为双语文本数据库 或双语语料库 ，可以用搜索工具执行查询操作。

双语文本和翻译记忆库

双语文本 的概念与翻译记忆库的概念有一定的相似性。一般而言，两者的最大区别在于，翻译记忆库是一种数据库，里面存储的片段（匹配的句子）与原始上下文没有任何联系；原始的句子顺序是缺失的。而双语文本则保留了原始的句子顺序。但是，在一些翻译记忆库的实现方法中，是允许保留原始的句子顺序的，比如翻译记忆库交换格式 (TMX)（一种用于在不同计算机辅助翻译 (CAT) 程序之间交换翻译记忆库的标准 XML 格式）。

双语文本在设计上用于译员查询，而不是机器查询。因此，那些会导致翻译记忆库运行错误的轻微对齐错误或小差异并不是很重要。

哈里斯在其 1988 的一篇文章中也认为，双语文本代表了译员在大脑记忆库中存储源文本和目标文本的方式，但是这种假设并没有后续研究。

註釋

^ Ralf Steinberger Ralf, Bruno Pouliquen, Anna Widiger, Camelia Ignat, Tomaž Erjavec, Dan Tufiş, Dániel Varga. The JRC-Acquis: A multilingual aligned parallel corpus with 20+ languages. Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC'2006). Genoa, Italy, 24-26 May 2006http://www.lrec-conf.org/lrec2006/ |conferenceurl=缺少标题 (帮助). 2006. （原始内容存档于2013-11-26）使用|archiveurl=需要含有|url= (帮助).

参考文献

Harris, B. 'Bi-text, a new concept in translation theory', Language Monthly (UK) 54.8-10, March 1988.

外部链接

平行语料库

The JRC-Acquis Multilingual Parallel Corpus of the total body of European Union (EU) law: Acquis Communautaire with 231 language pairs.
European Parliament Proceedings Parallel Corpus 1996-2011 （页面存档备份，存于互联网档案馆）
The Opus project aims at collecting freely available parallel corpora （页面存档备份，存于互联网档案馆）

[1] Ralf Steinberger Ralf, Bruno Pouliquen, Anna Widiger, Camelia Ignat, Tomaž Erjavec, Dan Tufiş, Dániel Varga. The JRC-Acquis: A multilingual aligned parallel corpus with 20+ languages. Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC'2006). Genoa, Italy, 24-26 May 2006http://www.lrec-conf.org/lrec2006/ |conferenceurl=缺少标题 (帮助). 2006. （原始内容存档于2013-11-26）使用|archiveurl=需要含有|url= (帮助).

[1]

@@ 第1行： / 第1行： @@
-{{external links|date=2013年12月}}
 {{Refimprove|date=2013年12月}}
-'''平行文本''' 是与译文并行放置的文本。'''平行文本对齐''' 是指确定平行文本中原文和译文的对应句子。[[洛布古典丛书|洛布古典丛书]]和克莱梵语丛书就是双语文本的两个例子。[[聖經譯本|圣经]]参考书中可能会同时包含原文和译文或者多种译文，以便于比较和研究；[[俄利根|俄利根]]的《圣经六国译文合璧》为旧约并排提供了六个版本。另外还要注意的一个最著名例子是[[羅塞塔石碑|罗塞塔石碑]]。
+'''平行文本'''（{{lang-en|parallel text}}，又作'''平行語料'''）是与译文并行放置的文本。'''平行文本对齐''' 是指确定平行文本中原文和译文的对应句子。[[洛布古典丛书]]和克莱梵语丛书就是双语文本的两个例子。[[聖經譯本|圣经]]参考书中可能会同时包含原文和译文或者多种译文，以便于比较和研究；[[俄利根]]的《圣经六国译文合璧》为旧约并排提供了六个版本。另外还要注意的一个最著名例子是[[羅塞塔石碑|罗塞塔石碑]]。<ref>{{Cite conference | author = Ralf Steinberger Ralf,  Bruno Pouliquen, Anna Widiger, Camelia Ignat, Tomaž Erjavec, Dan Tufiş, Dániel Varga | year = 2006 | title = The JRC-Acquis: A multilingual aligned parallel corpus with 20+ languages | booktitle = Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC'2006). Genoa, Italy, 24-26 May 2006 | conferenceurl = http://www.lrec-conf.org/lrec2006/ | access-date = 2013-12-09 | archive-date = 2013-11-26 | archive-url = https://web.archive.org/web/20131126165115/http://www.lrec-conf.org/lrec2006/ | dead-url = no }}</ref>
-平行文本的大集合被称为'''平行语料库''' （见[[语料库|语料库]]）。在句子层面对齐平行语料库是很多[[语言学|语言学]]研究领域的前提条件。
+平行文本的大集合被称为'''平行语料库''' （见[[语料库]]）。在句子层面对齐平行语料库是很多[[语言学]]研究领域的前提条件。
 在翻译过程中，翻译人员可以对句子进行拆分、合并、删除、插入或重新排列。这使得对齐任务变得异常重要。
@@ 第14行： / 第13行： @@
 ===双语文本和翻译记忆库===
-''双语文本'' 的概念与[[翻譯記憶|翻译记忆库]]的概念显示出了一定的相似性。一般而言，两者的最大区别在于，翻译记忆库是一种数据库，里面存储的片段（匹配的句子）与原始上下文没有任何联系；原始的句子顺序是缺失的。而双语文本则保留了原始的句子顺序。但是，在一些翻译记忆库的实现方法中，是允许保留原始的句子顺序的，比如翻译记忆库交换格式 (TMX)（一种用于在不同[[電腦輔助翻譯|计算机辅助翻译]] (CAT) 程序之间交换翻译记忆库的标准 [[XML|XML]] 格式）。
+''双语文本'' 的概念与[[翻譯記憶|翻译记忆库]]的概念有一定的相似性。一般而言，两者的最大区别在于，翻译记忆库是一种数据库，里面存储的片段（匹配的句子）与原始上下文没有任何联系；原始的句子顺序是缺失的。而双语文本则保留了原始的句子顺序。但是，在一些翻译记忆库的实现方法中，是允许保留原始的句子顺序的，比如翻译记忆库交换格式 (TMX)（一种用于在不同[[電腦輔助翻譯|计算机辅助翻译]] (CAT) 程序之间交换翻译记忆库的标准 [[XML]] 格式）。
 双语文本在设计上用于[[翻译|译员]]查询，而不是机器查询。因此，那些会导致翻译记忆库运行错误的轻微对齐错误或小差异并不是很重要。
@@ 第22行： / 第21行： @@
 ==相关条目==
 * 计算机辅助审校
-* [[机器翻译|机器翻译]]
+* [[机器翻译]]
-* [[自然语言处理|自然语言处理]]
+* [[自然语言处理]]
 * 多语对照书籍（书）
 * [[旁註標記|旁注标记]]
 * 双语碑文
-==外部链接==
+==註釋==
+{{reflist}}
-===平行语料库===
-* [http://langtech.jrc.it/JRC-Acquis.html The JRC-Acquis Multilingual Parallel Corpus] of the total body of [[欧洲联盟|European Union]] (EU) law: ''Acquis Communautaire''  with 231 language pairs.<ref>{{Cite conference
- | author = Ralf Steinberger Ralf,  Bruno Pouliquen, Anna Widiger, Camelia Ignat, Tomaž Erjavec, Dan Tufiş, Dániel Varga
- | year = 2006
- | title = The JRC-Acquis: A multilingual aligned parallel corpus with 20+ languages
- | booktitle = Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC'2006). Genoa, Italy, 24-26 May 2006
- | conferenceurl = http://www.lrec-conf.org/lrec2006/
-}}</ref>
-* [http://www.statmt.org/europarl/ European Parliament Proceedings Parallel Corpus 1996-2011]
-* [http://opus.lingfil.uu.se/ The Opus project aims at collecting freely available parallel corpora]
-* [http://alaginrc.nict.go.jp/WikiCorpus/index_E.html Japanese-English Bilingual Corpus of Wikipedia's Kyoto Articles]
-* [http://www.linguateca.pt/COMPARA/ COMPARA - Portuguese/English parallel corpora]
-* [http://www.termsearch.info TERMSEARCH - English/Russian/French parallel corpora (Major international treaties, conventions, agreements, etc.]
-* [http://www.tradooit.com TradooIT - English/French/Spanish - Free Online tools]
-* [http://www.inuktitutcomputing.ca/NunavutHansard/en/ Nunavut Hansard - English/Inuktitut parallel corpus]
-* [http://www-korpus.uni-r.de/ParaSol ParaSol - A parallel corpus of Slavic and other languages]
-* [http://glosbe.com/tmem Glosbe: Multilanguage parallel corpora] with online search interface
-* [http://www.korpus.cz/intercorp/?req=page:info InterCorp: A multilingual parallel corpus] 20+ languages aligned with Czech, online search interface
-* [http://olanto.org/ myCAT - Olanto], concordancer (open source AGPL) with online search on JCR and UNO corpus
-* [http://www.translationautomation.com/ TAUS], with online search interface.
-===文档===
-* [http://www.up.univ-mrs.fr/~veronis/biblios/ptp.htm Parallel text processing bibliography by J. Veronis and M.-D. Mahimon]
-* [http://www.cs.unt.edu/~rada/wpt/ Proceedings of the 2003 Workshop on Building and Using Parallel Texts]
-* [http://www.cs.unt.edu/~rada/wpt05/ Proceedings of the 2005 Workshop on Building and Using Parallel Texts]
-===对齐工具===
-* [http://mokk.bme.hu/resources/hunalign/ The Hunalign sentence aligner]
-* [http://www-i6.informatik.rwth-aachen.de/Colleagues/och/software/GIZA++.html GIZA++ alignment tool]
-* [http://nl.ijs.si/telri/Vanilla/ An implementation of the Gale and Church sentence alignment algorithm]
-* [http://sourceforge.net/projects/uplug/ An alignment tool by Jörg Tiedemann]
 ==参考文献==
+{{refbegin}}
+*Harris, B. 'Bi-text, a new concept in translation theory', ''Language Monthly'' (UK) 54.8-10, March 1988.
+{{refend}}
+==外部链接==
-Harris, B. 'Bi-text, a new concept in translation theory', ''Language Monthly''  (UK)
+===平行语料库===
-.8-10, March 1988.
+* [https://web.archive.org/web/20060619034515/http://langtech.jrc.it/JRC-Acquis.html The JRC-Acquis Multilingual Parallel Corpus] of the total body of [[欧洲联盟|European Union]] (EU) law: ''Acquis Communautaire''  with 231 language pairs.
+* [http://www.statmt.org/europarl/ European Parliament Proceedings Parallel Corpus 1996-2011] {{Wayback|url=http://www.statmt.org/europarl/ |date=20131214135555 }}
+* [http://opus.lingfil.uu.se/ The Opus project aims at collecting freely available parallel corpora] {{Wayback|url=http://opus.lingfil.uu.se/ |date=20131214102046 }}
-{{reflist}}
 [[Category:翻译数据库]]
 [[Category:语言习得]]
-[[en:Parallel text]]