科技术语自动提取技术

来源:期刊VIP网所属分类:综合论文发布时间:2022-01-18浏览:

  摘 要:文章简要介绍了自动术语提取任务的定义、主要方法和评价指标。针对传统的自动术语提取方法,以互信息、t值、tf-idf、C/NC-value为例介绍了单元度和术语度的概念;针对自动术语标注方法,主要介绍了基于序列标注的建模思想。从提取效果来看,现有自动术语提取技术距离期望仍有差距,文章也尝试给出了一些值得探索的方向。

  关键词:自动术语提取;自动术语标注;单元度;术语度;机器学习

  引言

  术语(term)是“各门学科的专门用语,在专业范围内表示单一的专门概念”[1]。术语处在专业知识体系构建的基石位置,术语的获取、整理和规范不仅对专业知识体系的构建和发展有重要作用,也会对专业领域之外的其他许多行业产生影响。

  传统上,术语的收集整理主要依靠领域专家进行,这种工作方式的优点是质量高,缺点也很明显,成本高,速度慢,难以适应当今科技高速发展中术语大量急速涌现的现状。20世纪90年代前后,伴随着语料库建设的进步,利用信息技术和自然语言处理技术进行术语快速获取——自动术语提取(automatic term extraction,ATE)的想法就应运而生并成为一个重要的研究议题[2]。

  术语自动提取有着不言而喻的重要意义。如果拥有可靠的术语自动提取技术,科技术语整理、审定与专业词典编纂的工作效率和质量就会得到极大提高。术语作为一种特殊词汇,在语言实践中,常有与普通语言词汇不同的处理策略和规律,可靠的术语自动提取技术也会对许多语言文字工作带来积极影响,例如,在翻译、教育等很多行业,及时、规范、全面的术语资源都是非常宝贵的资源。术语提取和识别还是专业自然语言理解的基础技术,对于自然语言处理而言,术语通常都是未登录词(out of vocabulary,OOV),术语自动提取技术的进步有助于改善自然语言处理系统未登录词的处理能力,有助于推动专业文本机器理解技术的发展。

  经过研究人员近三十年的努力,自动术语提取技术取得了许多进展,也出现了一些术语提取工具。例如,在许多机器辅助翻译平台中都有相应的自动术语管理和提取工具,譬如在著名的机器辅助翻译平台SDL-Trados中就配备了术语提取组件SDL MultiTerm Extract,可用于辅助翻译工作者定位专业文档及翻译记忆库中潜在的单语或者双语术语,从而辅助翻译工作者改进术语翻译质量。不过,自动术语提取也是一个有挑战性的研究任务,总的看来,自动术语提取技术的性能还不能令人满意,还需要研究人员的持续攻关和努力。

  1 自动术语提取的任务定义

  自动术语提取研究从特定专业文本中提取术语的自动技术和方法。自动术语提取系统的输入是特定领域的专业文本,任务是通过对这些文本的自动分析和处理,提取其中的术语条目并以列表的形式输出。例如,从给定计算语言学文本中,提取其中的计算语言学术语。尽管自动术语提取系统在应用时面向特定的目标领域,但现有自动提取技术基本上是通用的,并不因为所处理的领域不同采用不同的方法。为了指称的统一,在本文中,我们把自动术语提取所处理的特定领域文本统称为目标领域文本,即自动术语提取系统的输入是目标领域文本,输出是目标领域文本中所使用的目标领域术语条目。

  文献中,除了术语自动提取这个名称外,还有一些其他说法也指向术语提取或相关研究,例如,自动术语识别(automatic term recognition或automatic term identification)、自动术语检测(automatic term detection)、自动术语挖掘(automatic term mining)等。许多文献不加区别地使用这些术语,含义都是从目标领域文本中提取相应的术语条目。

  不过,这里也想特别指出,针对目标领域文本中的术语,从语型(type)和语例(token)两个处理角度,实际上可以构思出两种既相互联系又相互区别的处理任务。在语型处理层面,旨在提取目标领域文本中的术语条目,而不关心精确标记术语条目在目标领域文本中的每个使用实例。与之不同,我们还可以界定一種语例层面的自动术语处理任务,即在目标领域文本中精确标记所有的术语实例。传统上所说的自动术语提取主要指语型层面的处理,我们在本文中称之为自动术语提取。为了与之区别,在本文中,我们把上述语例层面的术语处理任务统一称作自动术语标注(automatic term labelling,ATL)任务。二者区别如下:

  a) 目标领域文本→自动术语提取ATE→术语表

  b) 目标领域文本→自动术语标注ATL→标注了术语的目标领域文本

  自动术语标注和提取可以独立研究,但也可以结合进行。事实上,可以将自动术语标注看作自动术语提取的前驱任务,如果可以成功识别并标记目标领域文本中的术语,那么只要将这些标记好的术语提取出来并进行去重操作就可以得到相应的术语条目列表,从而实现术语提取的目的。

  这里之所以对自动术语提取和自动术语标注区别对待,除了自动术语标注可以作为术语提取的实现技术之外,更为重要的是,从专业文本机器理解这个更为一般的角度出发,自动术语标注更具基础意义,在许多专业文本的机器理解任务中,更加需要语例层级的术语标注处理,因此自动术语标注技术除可以用以支持术语提取外,也是专业文本机器理解的基础技术。

  2 术语的组成和统计特性

  要想利用计算机自动标注或提取目标领域文本中的术语,就需要研究和总结术语在组成和分布方面的形式特征。作为一种特殊的语言表达,术语有着与普通词语和短语不同的区别性特征。

  从术语的组成来看,术语通常由一个或多个单词组成。由一个单词组成的术语通常称作简单术语(simple term)或单词术语(single-word term),由不止一个单词组成的术语通常称作复杂术语(complex term)或多词术语(multi-word term)。仅从组成单词的数量上看,术语与普通短语并没有区别。但术语与普通短语具有性质上的差异,术语是指称领域概念的,所指通常固定明确。即便是复杂术语,本质上仍是词汇层面的语言单位[3]。术语与普通短语在性质上的不同决定了术语必然具有不同于普通短语的特殊组成模式和特殊统计特性。

  (1) 从语言学角度看,术语大多是名词或者名词短语,这是由术语是对概念的指称这一特点决定的。例如,根据文献[3]对四个领域术语的抽样调查,名词短语在英语术语中所占比例很高,在所调查的四个领域中比例介于92.5%和99.0%之间。

  (2) 术语意义一般不是其组成单词意义的简单叠加,在使用中,变化有限。不具有一般短语所具有的(修饰词)省略、变化、替换甚至增添等灵活变化现象[3]。术语形式变化,通常会导致所指的变化,也会造成歧义,所以同一术语在使用中形式基本不发生变化。

  (3) 術语组成模式相对有限。例如,根据文献[3]对四个领域中多词术语的调查,仅由名词、形容词和介词组成的名词短语型术语占比在99%以上,仅由名词和形容词组成的名词短语型术语占比可达97%,并认为英语术语的组成可用正则表达式描述如下[3]:

  ((A|N)+(A|N)*(NP)?(A|N)*)N

  这里A、N、P分别代表形容词、名词和介词。AN、NN、AAN、ANN、NAN、NNN、NPN等常见的英语术语组成模式都可以由该表达式所生成并覆盖。

  (4) 在目标领域文本中,术语通常具有较高的出现频率。而且与普通短语不同,术语在领域文本和一般文本中有较大的分布差异,集中出现在所属领域的文本中,而在其他领域文本中则较少出现。

  (5) 复杂术语的组成单词之间结合紧密稳定,形成领域文本中的特有固定搭配。从统计学的角度看,复杂术语各组件的共现频度通常会显著超过一般预期。

  (6) 在专业文本中,术语的上下文语境也有一定封闭性,尤其是与术语共现的实词往往因领域不同而不同。

  术语的组成和统计特性是利用计算机识别和提取术语的主要依据,大多数术语自动提取方法是根据和利用上述术语特点而设计的。例如,利用术语的语言学特点,将目标领域文本中符合特定模式的名词短语视作潜在的术语候选,或者利用术语的统计特性设计不同的度量指标衡量单词和多词组合作为术语的可能性。

  3 单元度和术语度

  从计算机的角度出发,目标领域文本中任何一个单词或者连续几个单词的组合都有成为术语的可能。在本文中,我们把目标领域文本中任意一个由n个单词组成的连续片段称作n元组(n≥1)。理论上,任何一个长度小于术语最大长度的n元组都有成为术语的可能,我们把这些n元组称作术语候选(term candidate),计算机需要逐一评价这些术语候选,计算它们作为术语的可能性。

  衡量一个n元组是否构成术语通常被归结为计算两个指标的问题,即计算单元度和术语度[4]的问题。

  单元度(unithood)是针对复杂术语而言的,一个包含多个单词的n元组要成为一个术语,前提是它们需要构成一个固定搭配,组成单词间需要结合紧密并整体构成一个语言单位。单元度就是衡量一个多词n元组中词与词之间关联强度的指标。但组合紧密稳定的多词组合未必就是术语,术语需要具有领域性,术语度(termhood)就是用来衡量一个n元组与特定领域关联程度的度量指标。

  因此,对于目标领域文本中的某个n元组是否构成术语,可以分别计算该n元组的单元度和术语度分值,如果单元度和术语度得分都高的话,那么这个n元组很可能是一个术语。

  多年来,研究人员先后设计和使用了很多计算单元度和术语度的具体方法,这些方法形式各不相同,但原理上都是利用术语的形式和分布特点。

  3.1 单元度计算

  常见的单元度计算方法包括t值、χ2值、对数似然比、点式互信息、Dice系数等多种方法。一一罗列和介绍这些方法并无必要,我们这里只介绍其中两个计算指标,分别是点式互信息和t值。选择这两个指标,主要是因为点式互信息比较常见,而t值可以作为一类方法的代表。

期刊VIP网,您身边的高端学术顾问

文章名称: 科技术语自动提取技术

文章地址: http://www.qikanvip.com/lunwen/zonghelunwen/2022/0118/61319.html