基于标签迁移和深度学习的跨语言实体抽取研究

来源:期刊VIP网所属分类:汉语言发布时间:2020-12-26浏览:

  基金项目:国家自然科学基金面上项目“面向跨语言观点摘要的领域知识表示与融合模型研究”(项目编号:71974202)。

  作者:余传明

  摘 要:[目的/意义]从跨语言视角探究如何更好地解决低资源语言的实体抽取问题。[方法/过程]以英语为源语言,西班牙语和荷兰语为目标语言,借助迁移学习和深度学习的思想,提出一种结合自学习和GRU-LSTM-CRF网络的无监督跨语言实体抽取方法。[结果/结论]与有监督的跨语言实体抽取方法相比,本文提出的无监督跨语言实体抽取方法可以取得更好的效果,在西班牙语上,F1值为0.6419,在荷兰语上,F1值为0.6557。利用跨语言知识在源语言和目标语言间建立桥梁,提升低资源语言实体抽取的效果。

  关键词:知识获取;实体抽取;跨语言;深度学习;标签映射

语言教育

  实体抽取(Entity Extraction,EE),又称为命名实体识别(Name Entity Recognition,NER),是指识别文本中具有特定意义的实体[1],包括人名[2]、地名[3]、机构名[4]和专有名词[5-7]等。实体抽取在信息抽取的总体任务中起着至关重要的作用,有效识别命名实体,不仅是关系抽取[8-9]和构建知识图谱[10]的基础,而且可以显著提高问答系统[11]和文本挖掘[12]等应用的性能。随着大数据的迅速发展,各种语料在不同语言中的分散化和多样化日益严峻,跨语言情境下的实体抽取任务受到越来越多的关注。实体抽取任务在中文和英文等语言情境中,存在较为丰富的标注语料,与此相关的实体抽取模型相对简单;而在阿拉伯语和维吾尔语等语言情境中,标注语料相对稀缺,存在标签语料很少和手工标注标签昂贵且费时等问题,与此相关的实体抽取模型相对复杂,面临更多挑战。在标注语料丰富的源语言和标注语料稀缺的目标语言之间建立桥梁,将源语言的标签数据迁移给目标语言,以丰富目标语言的标签数据,通过建立跨语言的命名实体识别模型,提升低资源语言实体识别模型的效果,成为一个亟待解决的研究问题。

  机器翻译研究的发展在一定程度上缓解了目标语言语料稀缺的问题,但采用机器翻译来解决跨语言实体抽取仍面临一些挑战。首先,在源语言翻译成目标语言的过程中,即便在机器翻译达到很高准确率(即源语言文本与目标语言文本具有很好的语义一致性)的情况下,由于在目标语言中词汇语序被调整,且存在对源语言词汇进行拆分(源语言词汇与目标语言词汇之间为一对多的关系)或合并(源语言词汇与目标语言词汇之间为多对一的关系)的情况,很难准确地建立词汇标签(如B、I、O等)从源语言到目标语言之间的一一对应关系,如何在机器翻译基础上自动化地构建目标语言的语料标签仍然是一个严峻的问题。其次,目前应用较为广泛的免费在线翻译系统(如谷歌和百度翻译等)并不支持所有语言,针对稀缺资源语种(如蒙古语和维吾尔语等),如何在没有机器翻译的情况下自动化地构建目标语言的文本(并在此基础上自动化地构建标签)也是一大挑战。

  为解决上述问题,本文将自动化的双语词典构建应用到跨语言实体抽取任务中,利用迁移学习和深度学习的思想,开展跨语言实体抽取的实证研究。

  1 相关研究现状

  1.1 实体抽取的传统模型

  实体抽取的传统模型包括早期基于规则的方法、统计机器学习的方法以及近年来基于深度学习的方法,其效果不断得以提升。

  1.1.1 基于规则的实体抽取

  基于规则的实体抽取方法是指人工构造规则或者借助机器自动生成规则,然后从文本中找出匹配规则的字符串。为了解决乌尔都语实体标注语料稀缺的问题,Riaz K[13]提出一种基于规则的命名实体识别方法,首先从Becker-Riaz语料库中选取200篇文档,人工为时间、地名、机构名等6个实体标签制定规则;并选出2 262篇文档进行实验,该方法的召回率为90.7%,准确率为91.5%,F1值为91.1%。由于人工构造规则需要消耗较多的人力和物力,所以研究者們尝试借助机器自动生成规则的方法。Collins M等[14]先构造种子规则,再根据语料对该种子规则进行无监督的训练迭代得到更多的规则,将这些规则用于实体抽取,该方法在人名、地名和机构名3种实体抽取任务中取得很好的效果。周昆[15]提出一种基于规则匹配的命名实体识别方法,首先,将中文人名、知识按照不同类别和不同层次进行组织,可提高知识库的可维护性;然后分别制定20种人名识别规则和9种地名识别规则;最后构建具有自主学习能力的实体识别系统,能在识别实体的基础上,产生新的规则反馈给规则库,该方法有效提高了实体抽取的准确率和召回率。基于规则的实体抽取方法在小规模语料库上,训练速度快且模型效果好,但需要制定大量的规则,导致该类方法的可移植性较差。

  1.1.2 基于统计机器学习的实体抽取

  在基于统计机器的方法中,实体抽取被视为序列标注问题。序列标注问题中当前的预测标签不仅与当前的输入特征相关,还与之前的预测标签相关,预测标签序列之间具有强相互依赖关系。目前常用的统计机器学习方法有:隐马尔克夫模型(HMM)、最大熵隐马模型(MEMM)、条件随机场模型(CRF)等。CRF是计算整个标记序列的联合分布概率,在全局范围内进行归一化处理,不仅克服HMM输出的独立性假设问题,而且有效避免了MEMM的标记偏置问题。如冯艳红等[16]提出一种基于词向量和条件随机场的领域术语识别方法,将领域词语的语义特征和领域特征融入CRF模型中,在渔业领域语料、通用语料和混合语料上进行实验,该方法均取得较好效果。李想等[17]将农作物、病虫害和农药名称的词性、偏旁部首、左右指界词、附近数量词等特征融入CRF模型,建立特征与命名实体类别和词位间的关联关系,从而识别出命名实体,对农作物、病虫害、农药命名实体识别的准确度分别达97.72%、87.63%、98.05%。基于统计机器学习的实体抽取获得了较好的结果,但是该方法需要人工选择的特征作为模型输入,实体抽取的效果严重依赖特征选取,且模型的泛化能力不强。

  1.1.3 基于深度学习的实体抽取

  深度学习技术成为研究命名实体识别问题的热点方法,能够有效地解决人工选择特征的不足和高维向量空间带来的数据稀疏问题。近年来,基于深度学习的实体抽取主要思路是,首先采用字粒度、词粒度或者混合粒度将文本进行向量表示,然后用长短期记忆网络(LSTM)、循环神经网络(RNN)和卷积神经网络(CNN)等网络进行文本的语言特征提取,最后用条件随机场(CRF)输出最优标签序列。如Huang Z等[18]首次提出融合LSTM和CRF的端到端的命名实体识别模型,与基线方法相比,该方法具有较强的鲁棒性,对词语特征工程的依赖性较小。在此基础上,Lample G等[19]提出两种命名实体识别模型:一种是基于双向LSTM和CRF的命名实体识别模型,一种是基于转移的命名实体识别模型,在没有人工处理特征和地名录的前提下,英语、荷兰语、德语和西班牙语数据集上均取得较好的结果。Zhang Y等[20]提出基于Lattice LSTM的中文命名实体识别模型,该模型对输入字符序列和所有匹配词典的潜在词汇进行编码。与基于字符的方法相比,该模型显性地利用词和词序信息,与基于词的方法相比,Lattice LSTM不会出现分词错误。在多个数据集上证明Lattice LSTM方法优于基于词和基于字符的LSTM命名实体识别方法。目前,大部分神经网络都是使用Word2Vec和Glove工具训练词向量,所得到的词向量没有考虑词序对词义的影响,Google在2018年10月发布BERT语言表示模型,在各项自然语言处理任务中都取得了最先进的结果。王子牛等[21]提出基于BERT的中文命名实体方法,首先用BERT训练大量未标注语料,得到抽象的语义特征,然后结合LSTM-CRF神经网络,该方法在《人民日报》数据集上的F1值达到94.86%。此外,深度学习方法还被广泛应用于历史事件名抽取[22]、电子病历实体抽取[23]、商业领域实体抽取[24]、在线医疗实体抽取[25]等应用场景。值得说明的是,基于深度学习的实体抽取方法,在英语和中文等高资源语言中取得很好的效果;对于维吾尔语、蒙古语等低资源语言,实体抽取的效果有待提高。

  推荐阅读:小语种语言研究论文怎么发表

期刊VIP网,您身边的高端学术顾问

文章名称: 基于标签迁移和深度学习的跨语言实体抽取研究

文章地址: http://www.qikanvip.com/hanyuyan/54850.html