翻译记忆库详解
2020-01-02 18:33:25
翻译记忆库详解
2019-01-12 11:25:41 翻译记忆库:计算机辅助翻译程序。本质上,它是一个数据库,它将翻译的句子(翻译单元或片段)与它们各自的源片段存储在数据库(“存储器”)中。对于要翻译的每个新片段,程序扫描数据库以准确地或近似地(模糊匹配)与新片段匹配的先前源片段,并且如果找到,则将相应的目标片段建议为可能的翻译。然后翻译人员可以接受,修改或拒绝建议的翻译。翻译记忆系统:指一种机器辅助人工翻译工具,它存储以前的翻译,并在翻译新材料时遇到相同或相似的句子时提供这些翻译。相似性匹配:计算机辅助翻译系统中自由形式查询的一种匹配方案。查询首先通过系统传递,浏览器在查询的内部表示和数据库中每个句子的内部表示之间执行相似性匹配。通过这种方式,可以匹配表面相似性和结构相似性。资料来源:翻译技术词典,陈新伟,中国大学出版社,2004翻译记忆库被定义为“多语言文本档案,包含(分段,对齐,解析和分类)多语言文本,允许根据各种搜索条件存储和检索对齐的多语言文本段”(EAGLES 1996-语言专家咨询小组)工程标准)。与自动生成翻译的机器翻译系统不同,翻译记忆系统允许专业翻译人员负责决策是否接受或拒绝翻译过程中系统建议的术语或等同短语或片段。实际上,所有TM系统都是与语言无关的,并支持以数字方式表示许多(如果不是全部)字母和脚本的国际字符集。翻译记忆技术的工作原理是重复使用以前翻译的文本及其原文,以便于制作新的翻译。它还可以与存储的专用术语的数据库连接,这些术语可以被访问和检索以便在新的翻译中重用。翻译记忆系统没有语言成分,并且采用两种不同的方法从先前存储的文本中提取翻译片段。这些被称为完美匹配和模糊匹配。?当新的源语言段完全相同(包括拼写,标点符号和变形)到数据库中的旧段(即TM中)时,会发生完美匹配或完全匹配。?与完美匹配不同,当旧的和新的源语言段相似但不完全相同时,会发生模糊匹配。即使像标点符号这样的非常小的差异也会导致模糊匹配。由于数据库或存储器中的旧源片段与当前正在翻译的新源文本片段之间的相似度可能不同,因此使用算法来计算表示匹配程度的百分比。模糊匹配的百分比越高,两个源语言段之间的相似性越接近。阈值百分比可以由用户在高级别设置,例如在90%,以将旧源语言段的检索限制为仅包含与新源语言段的小差异的那些。相反,阈值可以设置在低水平,例如10%,以允许翻译记忆库检索仅与新片段弱相关的片段。段的含义相同但格式不同,如日期,尺寸,时间和拼写都属于模糊匹配类别,尽管它们的分类不同。一些系统允许自动处理这些变化。多义词和同音词,即同形词,总是需要小心处理现在的挑战。分割是将文本分成由单词或单词串组成的单元的过程,这些单词或单词串在语言上是可接受的。需要分段以使TM执行匹配(完美和模糊)过程。一对旧的源语言和目标语言文本通常被分割成单独的句子对。但是,并非所有文本部分,特别是专业文本都采用句子格式。例外情况包括标题,列表和要点。结果,需要不同的分割单元。翻译者可以决定片段的长度,但通常使用标点符号作为指示符。然后,系统为段分配唯一的编号或标记。值得注意的是,虽然对于基于拉丁语的字母表来说,分割是很自然的,但对于中文,泰文和越南语这样的语言来说,它是相当陌生的,连续写入,字符之间没有任何空格。因此,在这种情况下,需要其他分割方法来确定分段的开始和结束。可以在翻译时将新片段添加到TM,或者可以通过文本对齐过程将先前翻译的源语言文本及其翻译输入到存储器中。资料来源:翻译与技术,CK Quah,Palgrave Macmillan,2006年最简单的是,TM可以被视为与其目标文本对应物明确对齐的源文本段列表。得到的结构有时被称为平行语料库或双文本。翻译单元存储在TM数据库中。一些复杂的TM程序使用一种称为神经网络的技术来存储信息。神经网络允许比顺序搜索技术更快地检索信息。TM系统背后的基本思想是允许翻译者重用或回收先前翻译的片段。在新文本中重复使用先前的翻译有时被称为“杠杆化”。TM系统如何工作?该技术通过自动将新源文本与已翻译的文本数据库进行比较来工作。当翻译者具有要翻译的新片段时,TM系统查询数据库以查看该新片段是否对应于先前翻译的片段。如果找到匹配的段,则TM系统向翻译者提供先前的翻译,并且翻译者决定是否将其合并到新的翻译中。分割:在大多数情况下,分割的基本单位是句子。但是,并非所有文本都以句子形式书写。标题,列表项和表格单元格是熟悉的文本元素,但它们可能不严格限定为句子。因此,许多TM系统允许用户除了句子之外还定义其他分割单元。这些单位可以包括句子片段或整个段落。决定什么构成细分市场并非易事。TM系统如何识别句子?通常使用诸如句号,感叹号和问号之类的标点公园。有问题的案例是缩写,章节标题或嵌入式句子。其中一些问题可以通过合并停止列表来解决(例如,不表示句子结尾的缩写列表,例如Mrs.和eg)进入TM系统。另一个问题是源文本中使用的分割单元可能与翻译中使用的分割单元不完全对应。缺乏一对一的对应可能会给自动对齐程序带来困难。匹配:大多数TM系统向用户呈现许多不同类型的段匹配。最常见的类型是精确,模糊和术语匹配。正在对完整和细分市场的比赛进行研究。完全匹配是最简单或完美的匹配。一个精确匹配与翻译者目前正在翻译的片段100%完全相同,无论是在语言上还是在格式方面。TM系统用于识别完美匹配段的过程是严格模式匹配之一。这意味着两个字符串在各方面都必须相同,包括拼写,标点符号,变形,数字甚至格式。新源文本中与原始段不完全匹配的任何段都不会产生完全匹配。翻译者不必被迫接受TM系统提出的翻译。尽管一个片段可能是相同的,但翻译者关注的是翻译完整的文本而不是孤立的片段,因此在新的语境中阅读提议的翻译是很重要的,以确保它在风格上适当且在语义上是正确的。当新的源段与存储的TM单元的不同之处仅在于所谓的可变元素(有时称为“可放置的”或“命名的实体”)时发生完全匹配。可变元素包括数字,日期,时间,货币,度量,有时还有专有名称。这些元素通常需要在文本中进行某种特殊处理。TM系统需要忽略可变元素以进行匹配。模糊匹配是近似或部分匹配。模糊匹配检索与新源片段相似但不相同的片段。一些TM系统使用颜色编码来说明新源文本段和检索到的段之间的各种类型的差异。模糊匹配中的相似度可以在1%到99%的范围内,并且用户通常能够设置灵敏度阈值以允许TM系统定位先前翻译的片段,这些片段可能仅与新的源文本片段略有不同。或变化很大的部分。如果灵敏度阈值设置得太高,则存在TM将产生“静音”的风险:将无法检索潜在有用的部分匹配。但是,如果设置得太低,系统将产生“噪音”:检索到的建议翻译与新的源文本段太不相同,因此没有帮助。当阈值非常低时,可以基于非常一般的单词(“the”,“and”)进行匹配,并且所检索的段的整体内容可能包含很少的值以帮助翻译者翻译新的段。 。许多翻译人员更愿意将阈值设置在60%到70%之间。虽然模糊匹配可能很有用,但它需要仔细校对和编辑,以确保建议的翻译适合包含在新的目标文本中。“和”)并且检索到的片段的整体内容可能对帮助翻译者翻译新片段几乎没有价值。许多翻译人员更愿意将阈值设置在60%到70%之间。虽然模糊匹配可能很有用,但它需要仔细校对和编辑,以确保建议的翻译适合包含在新的目标文本中。“和”)并且检索到的片段的整体内容可能对帮助翻译者翻译新片段几乎没有价值。许多翻译人员更愿意将阈值设置在60%到70%之间。虽然模糊匹配可能很有用,但它需要仔细校对和编辑,以确保建议的翻译适合包含在新的目标文本中。术语匹配通过活动术语识别的过程完成,并且基本上构成自动字典查找。如果一个或多个术语被识别为在术语库中,则TM系统指向适当的术语记录,然后翻译者可以使用其中包含的相关信息。这意味着当没有找到源文本段的精确匹配或模糊匹配时,翻译者可能至少找到术语库中单个术语的一些翻译等价物。子段匹配落在模糊和术语匹配之间。在模糊匹配中,两个段必须具有许多共同的元素,以便建立匹配。在术语匹配中,将新的源段与术语库中的条目进行比较。在子段匹配的情况下,被比较的元素是较小的段块。这意味着即使整个片段没有高度的整体相似性,也可以在两个小片段之间检索匹配。当两个段都包含确实非常相似的块时,翻译器可能能够重用该块。进一步细化,组合的完整段/子段方法允许TM系统自动将新的源文本段与存储的TM进行比较。它将从检查完整的细分市场开始,首先寻找精确匹配,然后寻找模糊匹配,如果在段级别找不到这样的匹配,它将比较越来越小的块以寻找匹配。以这种方式,翻译器可以呈现源自若干不同段的子段匹配,即使这些完整段中没有一个被限定为模糊匹配。此策略类似于基于示例的机器翻译(EBMT)中使用的方法。TM作为支持工具和成熟的EBMT系统之间的主要区别基本上是谁主要负责分析目标文本的细分和制定的问题,而对于EBMT,计算机负责生成目标文本的完整草案,尽管这可能仍需要由人工翻译进行后期编辑。没有匹配:在这种情况下,翻译者必须从头开始翻译。另一种选择是使用机器翻译系统来翻译在TM中找不到匹配的源文本部分。可以通过两种主要方式将翻译输入TM数据库:通过交互式翻译或通过翻译后对齐。交互式翻译有可能产生质量高但最初体积较小的TM,其中翻译后对齐有可能产生体积更大但(可能)质量更低的TM。完全可以使用两者的组合来构建TM。交互式翻译是翻译人员构建TM的最直接的方式,在翻译过程中将翻译单元添加到内存中。每次翻译器翻译源文本片段时,配对的翻译单元可以存储在TM数据库中。一旦段被翻译和存储,它立即成为TM的一部分。这意味着如果该段或类似段再次出现在文本中 - 即使在下一句中 - 也会自动向译者建议先前的翻译。然后,如果上下文需要更改,则翻译者可以选择接受先前的翻译或编辑它。请注意,许多TM系统也可以联网,这意味着多个转换器可以为一个TM做出贡献,并且可以更快地构建其包含的数据量。在联网的情况下,可以为不同的用户提供不同类型的权限,以便进行某种形式的质量控制。例如,所有用户都可以获得咨询TM的许可,但是添加新TU的能力可以限于审校人员或高级翻译人员。使用现有TM:有两种主要方法 - 交互模式和批处理模式。以交互模式工作的翻译器继续逐段地处理新的源文本,并且TM系统尝试将存储在数据库中的片段与新的源文本片段进行匹配。在翻译每个新段时,TU立即被添加到TM中,并且在下次遇到相同或类似的段时可以重复使用。在第二种情况下,大多数TM系统还允许批量翻译,有时也称为预翻译,这意味着用户可以通过系统运行完整的源文本,并且每当找到完全匹配时,它将自动替换新的包含存储在TM中的翻译的源文本段。找不到匹配的段必须由人工翻译或机器翻译系统翻译。在任何一种情况下,整个文本必须由人工翻译进行后期编辑,以确保系统所做的替换是正确的。如果翻译人员对自动插入的任何匹配项进行了更改,则可以随后将这些更改添加到TM以使其保持最新。TM系统通常与其他工具集成:- 使用术语管理系统 - TM系统将源文本段与存储在TM数据库中的先前翻译的段进行比较,同时使用称为活动术语识别的过程,TMS比较每个源中包含的各个术语文本段与术语库中包含的术语相对应。如果该术语被认为是在术语库中,则翻译者会注意到该术语存在条目这一事实,并且翻译者可以查看术语记录,然后将该术语直接插入到目标文本中。- 使用双语concordancers - 允许用户检索特定搜索字符串的所有实例,并在其直接上下文中查看这些事件。这意味着翻译人员可以要求查看出现在TM中任何位置的任何文本片段(不仅仅是预定义的片段)的所有出现,以及它们的翻译等价物。这允许翻译器在上下文中快速查看搜索字符串及其翻译,翻译可能并不总是相同。- 使用机器翻译系统 - 首先将新的源文本与TM进行比较,TM将替换那些检索完全匹配的段。仍然未翻译的片段可以被馈送到机器翻译系统,该系统产生翻译草稿。然后将整个文档传递给人工翻译以进行后期编辑。最终翻译可以与原始源文本对齐并存储在TM数据库中以供将来重用。资料来源:计算机辅助翻译技术,Lynne Bowker,渥太华大学出版社,2002年大多数当前的商业TM系统以分数的形式提供匹配的定量评估,通常表示为百分比,并且有时称为模糊匹配分数或类似。这种“得分”如何得出可能相当复杂,并且由于专有原因通常在商业系统中不明确。在所有系统中,匹配基本上基于字符串相似性,但是许多系统允许用户指示其他因素的权重,例如示例的来源,格式化差异,甚至某些单词的重要性。字符串相似度计算使用完善的“序列比较”概念,也称为“字符串编辑距离”,因为它在拼写检查器中的使用,或者更正式地说是俄罗斯数学家发现后的“Levenshtein距离”最有效的计算方法。字符串编辑距离是将一个字母序列更改为另一个字母所需的最小插入,删除和替换次数的度量。例如,将“服务员”改为“女服务员”需要一次删除和三次插入。可以将该度量调整为有利于插入,删除或替换的权重,或者有利于对非连续删除的连续删除。实际上,Levenshtein开发的序列比较算法比较任何符号 - 字符,单词,数字等序列 - 具有大量的应用,从计算机中的文件比较到语音识别(声波表示为数字序列),遗传序列如DNA的比较,图像处理......实际上任何可以数字化的东西都可以用Levenshtein距离进行比较。