视频1 视频21 视频41 视频61 视频文章1 视频文章21 视频文章41 视频文章61 推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37 推荐39 推荐41 推荐43 推荐45 推荐47 推荐49 关键词1 关键词101 关键词201 关键词301 关键词401 关键词501 关键词601 关键词701 关键词801 关键词901 关键词1001 关键词1101 关键词1201 关键词1301 关键词1401 关键词1501 关键词1601 关键词1701 关键词1801 关键词1901 视频扩展1 视频扩展6 视频扩展11 视频扩展16 文章1 文章201 文章401 文章601 文章801 文章1001 资讯1 资讯501 资讯1001 资讯1501 标签1 标签501 标签1001 关键词1 关键词501 关键词1001 关键词1501 专题2001
CAT详细介绍4
2025-10-03 04:01:45 责编:小OO
文档
第4章:术语管理系统

……使用电子表格、数据库和文字处理程序来管理术语的用户都会遇到如下问题:长期积累的大型数据资源复制困难,以及由于建模特征不足而使数据完整性削弱。                                                     

                                 施米茨(2001,539)

    任何翻译项目的主要任务就是为专业术语寻找对等语。诸如计算机、生产、法律以及医药等主题领域都会有大量专用术语。此外,很多客户都会拥有优先选择的内部术语。为了完成一项既定的翻译项目而对其所需要的特定术语进行研究是一项十分耗时的工作,译者并不愿意在进行每一次翻译的时候都要去重复这项工作。一个术语管理系统(TMS)可以多方面地辅助译者进行术语处理工作,包括存储、检索以及更新术语记录。同时,TMS也有助于确保术语使用的一致性,从而使文件更易于阅读和理解,并能防止信息的错误传达。有效的术语管理有助于削减翻译成本,提高翻译质量并减少翻译耗费的时间。在这个上市压力紧张的时代,这尤为重要。

术语管理系统(TMS)出现已有一段时间。20世纪60年代,就开始尝试用计算机进行术语管理,发展至今,已形成了几种大规模的术语库,如:欧洲多语种词汇库,加拿大术语库等。 20世纪80年代,台式电脑问世,在第一批计算机辅助翻译工具中,TMS便成为译者进行翻译活动的商业工具。尽管当时TMS很受欢迎,但这些早期的TMS却有很多局限性,只能在一台电脑上运行,且资源不易共享。通常情况下,只能进行简单的双语术语管理,在数据领域的类型和数量以及该数据领域可以存储的最大数据量等方面有诸多。而近来,这种类型的软件变得比以前更加强大,自由性也更强,尤其是在数据存储和检索的选择上。

4.1 数据存储

TMS最基本的功能在于,它如同一个储存库,可以巩固和存储术语信息以备未来的翻译项目之用。以前,许多TMS是将信息储存为结构化的文本文件,使用单向的一对一的转换方式,提供源语—目的语的术语。这种方式给翻译活动制造了困难,例如,如果一个法—英单向转换的术语库需要提供英—法翻译,那又该如何?新型成熟的TMS软件是使用一种关联模式来存储信息,也就意味着信息是基于语义或概念来储存的,这样就可以进行多方向的语言转换。

对于术语记录上可储存的信息的类型及数量,新型的TMS有更大的自由度。以前,每个术语记录上都会给出一组领域(如主体领域、定义、语境、来源),而用户则需要根据这些预先确定好的数据领域来进行信息存储。通常,每个领域能够储存的字符量也是固定的。例如,如果一个TMS只允许记录一个语境,用户就只能记录一个,即使提供几种语境可能会更有帮助。图4.1是一个典型的传统记录模板。

与图4.2相比,大多数当代的TMS都采用了一种自由的结构,从而使用户可以定义属于自己的信息领域,包括重复的领域(如:多种语境)。有些TMS甚至将制图法纳入其中。用户不仅可以自行定义信息领域,还可以自行设计排版格式,为了便于辨别重要信息可以为其选择不同的版面、字体或颜色。这也就意味着,该软件可以满足特定用户的需求,可以随着未来市场需求的变化而发展、更新。同时,一个既定领域或记录上可存储的信息数量也大大增加。根据不同的主题领域和不同的客户,可以构建不同的术语库并加以保留。如有需求,有些系统还可以生成多样的术语库。

4.2 检索数据

一旦术语被存储,译者就需要能够检索到这些存储的信息。此时可以使用一系列的搜索和检索机制。最简单的搜索信息的技术就是通过检索特定的匹配项来查找信息。为了减少搜索时间,一些TMS允许使用通配符检索法。通配符是一种诸如星号的字符,可以用来代表任意字符或字符串。例如,使用搜索字符串“comput”这种通配符可以用来检索诸如“computer”、“computing”等术语记录。而技术更成熟的TMS也运用了模糊型匹配技术。模糊型匹配法可以检索与需要搜索的字符类型相似的术语记录,但搜索结果并不完全匹配。通过这种方法,译者可以检索出以下数据记录:形态变异词(如动词的不同形态、带有前缀或后缀的单词)、拼写变异词(甚至于拼写错误的词)以及多词术语,即使译者对该多词术语各个字母的组合形式并不完全确定。表4.1中列出了一些关于运用这种模糊型匹配法检索术语记录的例子。

    当这种通配符搜索法或模糊型匹配法得到运用,由于存在潜在的匹配关系,那么能够检索出来的记录就可能不止一条。而一旦运用这种方法检索,呈现在用户面前的就是一份囊括了术语库中可能引起用户兴趣的所有记录的“黑名单”,然后用户就可以从中选择自己想要看的记录。样品名单见图表4.2.

4.3 积极的术语识别与预翻译

    有些术语管理系统,尤其是那些带有单词处理器和翻译记忆系统的术语管理系统具有的另一个特征是作为一个整体的软件包的一部分而运作,以及翻译记忆系统(见5.5.9.1章节)因积极的术语识别而为人所知。本质上,这个特点是一种自动查阅的词典。当译者浏览文本时,术语识别部分比较源语文本中的项目和术语库中的内容。

    一些术语管理系统也允许这个特征里的某个更加自动的扩展名,这样译者就可要求系统做某种预翻译或者文本中的批量数据处理。在这种情况下,该术语管理系统将会显示出现在术语库中的词条。之后,系统会自动在目的语文本中输入相关的对应词。预翻译阶段产生的就是一种混合的文本,如图4.3所示。在后期编辑阶段,取决于译者核实所提出术语的正确度,以及对文本中尚未在术语库找到对应词的那部分的翻译。

4.4术语提取

    一些术语管理系统可能具有的另外一个特征是术语提取,有时被称为术语识别或者术语辨认工具。大部分术语提取工具都是单一语种,为了识别候选术语,它们也会尝试分析源语文本。然而,发展一些双语工具分析已有源语文本及其译文,试图识别潜在术语和它们的对应词。这个过程可以帮助译者更快地建立术语库。但是,尽管初次提取由电脑完成,但选出的候选语料单要由人来核实。因此,这个过程最好描述为计算机辅助或者半自动而不是全自动。

    不像3.2.1章节中描述的词的频率表那样,术语提取工具尝试识别多词单位。针对术语提取有两种主要的方法:语言学方法和统计学方法。为了清楚易懂,将分部分解释这些方法。但是,两种方法的各个方面将要糅合进同一个简单的术语提取工具。

4.4.1语言学方法

    一般来说,使用语言学方法的术语提取工具以试图识别与特定词性组合相匹配的词语。例如,在英语中,许多术语由名词+名词组成,或者有形容词+名词组合而成。

为了执行这种方法,首先,文本里的每一个单词必须标记它合适的词性,正如3.3部分所描述的。一旦文本标记正确,术语提取工具简单地识别全部的和具体的词性模式相匹配的词语。例如,把某样工具预设为辨别名词+名词和动词+名词的组合,作为潜在的术语将会识别已给的文本中模式相匹配的所有的词汇组合。如图4.3所示。

令人遗憾的是,不是所有的文本都处理的这么有序。如果该文本做了轻微调整,如图4.4所阐释,像“噪音”和“沉默”这样的问题就很明显。

首先,不是所有遵守特定模式的合成词都符合术语。在图4.4中识别的选出的名词+名词,形容词+名词中,一些符合术语名称(“抗病毒程序”、“诚信检查”、“行为障碍”、“启发式分析”),然而,一些不符合术语名称(“多选择”、“周期性检查”、“目前现状”、“存储信息”),后者被当做干扰,需要由人类将其从选出的术语表中删除。

根据还没有被预设加入工具的模式,也许,另一个潜在的问题即一些合理的术语将要形成。这会造成“无声”,一种相对信息不正常的情况,将不会被许多术语提取工具识别。

语言学方法最终的反馈是过度依赖语言。术语组成模式不同于从一种语言到另一种语言。比如,术语形成模式在英语里非常典型。(例如,形容词+名词,名词+名词),因此,使用语言学方法的术语提取工具通常被设计成为单一语言服务(或接近相关的语言)无法轻易地用其他语言延伸工作。

4.4.2 统计学研究方法

    对于用于提取术语的工具来说,最直接的统计法就是寻找重复的词条序列。临界频率(一系列词条必须重复的次数)经常由用户规定。比如,如图4.5所显示的那样,如果最低临界频率是2,为了能被术语提取工具识别成候选术语,给定的词条序列在文中至少出现2次。

    基于最低临界频率为2,图4.5的文本产生两个潜在术语:“antivirus software”和 “virus signature files.”令人遗憾地是,该简单策略经常会遇到难题,因为语言充满重复现象,但并不是所有的重复词条都是术语。例如,参照图4.6中稍作调整的文本。

    仅在识别系列重复词条基础上工作的话,术语提取软件识别出了另外两个候选术语:“developers are”和“as often as”。这些候选术语是“噪音”而非术语,需要由一位人员从潜在术语列表中去除。过滤词表,如3.2.1.2章节中描述的那样,用于减少不太可能成为术语却有可能被当成候选术语的数目。例如,过滤词表能被用于指导术语提取工具来忽略那些以功能词开始或结尾的词条,比如介词、冠词和连词。

统计法另一个缺点是,给定文本中所有的术语不一定都会重复出现,这将导致“沉默”,例如图4.6中,因为术语“push-technology updating”只在文中出现了一次,而且最低临界频率被设成2,所以并没有被识别为术语。

计算交互信息(MI)是一种识别候选术语的相关统计方法,,在3.2.3章节曾出现过。前提是两个词条一起出现的次数比它们单独出现的次数更多,上述的多词单位也许就是一个潜在术语。再次声明,这种方法并不是万无一失的,噪音和沉默现象也可能出现。

尽管如此,将统计法用于术语提取有一个明显优势:它不受语言。这也就意味着,一般来说,统计性的术语提取工具能够用于处理多语种文本。

4.5其它特性

    术语管理软件也可能具有其它用途,比如允许用户创造和管理概念系统或词库,融合多种术语库,引进或输出其它格式,以用户指定的格式打印出术语库的内容。

4.6术语管理软件的优缺点

    之所以要维护各种类型的术语库,是因为它能使术语保持一致性,而且在译者每次开始一项新的翻译项目时,能使他们避免重复研究。不一定要使用专门的软件来维护术语库--许多译者长期以来一直在使用卡片索引或文字处理器。虽然与这些传统方法相比,术语管理软件的确有很多优势,但现代技术无不具有缺点。使用术语管理软件的优缺点如下所示。

4.6.1 速度及灵活性

    4.1和4.2节中着重讨论了用术语管理软件代替检索卡的主要优点,即更为灵活的存储和检索功能。此外,该系统能够更加便捷的更新电子信息,更快捷的在电子文件中查询资料。尽管文字处理器能够以电子形式存储信息,但这种处理器也无法对术语进行高效管理,而且其检索功能的运作速度也会随着术语库规模的扩大而大打折扣。利用术语管理系统提高译员工作效率的另一种方法是通过将术语直接输入目的语文本中,从而避免了术语的重复键入。当然,为使术语适应语境(如动词需变形),也可能需要对其进行校订,这意味着从复制粘贴过程中省下来的时间也许会用于编辑校订上。这在某种程度上也促成了一种在术语存储中记录信息的新方法,详见4.6.3。

4.6.2 质量

    即使所有术语表都能够提升整个翻译项目的一致性,但某些术语管理系统的主动术语识别功能则在一致性的基础上更进了一步。正如克拉克(1994,306)所言,如果译员不参考术语库,那么为预先确定术语并将其存储在术语库中所做的努力就没有意义了。运用主动术语识别功能,译员就不需要选择了,因为原文中的术语已经从术语库中自动检索生成了。

4.6.3 改变翻译任务性质

    除了提高术语搜索的速度以外,更有证据表明该技术已经开始影响术语库中记录的术语信息的数量和类别以及储存该类信息的方式。

虽然用户可以通过灵活的工具将详细信息录入术语表中,我们可以看到术语表正被越来越普遍地用于本地化行业,但这些术语表仅包含源语术语和目标语术语,以及可能存在的注释,而且这种术语表存在的条件是,根据上下文,源语术语有多种翻译的可能。据奥布莱恩所说(1998,118),这种精简术语表格式有以下几种成因。第一,本地化行业所要求的周转时间通常很短,因而没有准备详细术语表的时间。第二,使用的术语(即使是同一委托人)变化极快,因此要根据委托人每一次的本地化产品更新新术语表。最后,译员也同样需要在很短的周转时间内产出,因此,如果一个术语有多种翻译,那么译员只需关注经委托人核准的翻译术语和语境即可。当然,相对于术语本身的性质而言,这种趋势更多的是因翻译市场的本质形成的;然而,技术使编辑转换信息更为轻易,这一事实推动了将术语表当作一次性用品而非长期记录的趋势。

但是该技术会改变已存数据的类型和术语库内的数据存储方式。例如:使用综合程序包(与其他应用程序相链接的程序包,如文字处理器或翻译记忆)时,译员可以将术语管理系统自动生成的术语直接导入目的语文本(例如:通过点击术语库中的该术语)。这样可以节约时间,无需再次键入或剪切粘贴。其结果之一就是一些译员会自建常用短语或词组术语库,而这些短语或词组仅在特定领域内频繁使用而非传统意义上的术语。如;当译员翻译电脑使用说明书时可能会自建“点击OK键”或“便于……”等类似表达的术语库,以便更为快速地从术语管理系统中调取这类常用表达而非重新键入。

当然,一旦将术语从术语管理系统中导入目标文本后,就需要开展必要的编辑工作(如:动词变形),而这就产生了一个有趣的问题,即应将术语的何种形式录入术语库。一般而言,术语库中录入的是术语的标准形式(名词单数形式、动词不定式、阳性形容词)(Dubuc 1985, 80; Rondeau 1984, 84)。然而,肯尼(1999, 71)发现,为了缩短从术语管理系统中直接插入术语所需要的编辑时间,一些译员选择将术语最常见的一种或几种形式录入术语库(见表4.7)。这样,只需点击该术语就可以直接导入其正确形式而不必在目标文本中再次编辑该术语。5.5.9.1节将会就综合术语管理系统和翻译记忆系统作进一步讨论。

4.6.4 信息共享:网络化,文件格式和标准

术语管理系统可用作单机工具,但它们越来越多得连接上了网络,如此,就可供数个用户使用并扩充术语库。在这种情况下,就需要向不同的用户赋予不同类型的网络系统。例如:所有的用户都能参考术语库中存储的信息,但是,只有部分用户,比如负责质控的译员,才能添加新的记录。

另一种共享术语信息的方法是,与客户或其他译员交换数据。不巧的是,并不是所有的人使用的都是同一种术语管理系统。如在2.3节中所说,不同的应用以不同的格式存储信息,因此,为达到交换信息的目的,文件格式必须兼容或可转换。有些术语管理系统允许数据直接导入到文字处理器或桌面排版格式,亦或是根据国际标准输入或输出,比如机器可读术语数据交换格式(简称MARTIF-ISO 12200)。当下,一个隶属于本地化行业标准组织的专门兴趣组,正在制定一个被称为“术语库交换”(简称TBX)的新标准。

4.6.5 字符集和语言相关难题

某些术语管理系统的局限之处在于可处理的字符集。如在3.4.6节中所说,很多计算机应用,包括一些术语管理系统,在编写时被设定只能处理单字节字符。因此,对那些处理汉语、日语、韩语等这类需要双字节字符集的译员来说,他们也许就不能使用特定的术语管理系统。如今,众多研发人员正竭力解决这个问题,力图合并双字节,编进未来产品中,采用统一的字符编码标准对外发布。

4.6.6 经济方面

大部分译员不会觉得学习和维护一个术语管理系统的成本过高。很多系统的标价都很合理,即使是在内存和处理能力都有限的台式计算机上也能运行。所需存储空间的量取决于术语库的大小。但是,如果译员想要将术语管理系统和翻译记忆系统(详见5.5.9.1)组合成集成套件,那么不管是对系统的要求还是价格都会提高。一些市售产品的细节参见附录B。

关键点

●自二十世纪六十年代起,术语管理软件就以这种或那种形式存在着,但当代的软件有大量改进,包括更强大、更灵活的存储和检索选项。

●当代术语管理系统是以基于语义或概念的方式存储信息,这使得多语言方向转换成为可能。

●大部分的TMS拥有一种自由的结构,从而允许用户定义和编排自己的信息领域。

●检索特征包括:通配符搜索、模糊匹配、术语识别、预翻译和术语抽取。

●将术语管理系统联网有利于数据共享;已制定出在不同系统之间允许数据交换的标准。

●有证据表明,这一技术正在改变传统的术语编纂活动。(比如:记录术语的方式。)下载本文

显示全文
专题