一种基于混合注意力网络的事件检测方法及装置制造方法及图纸

技术编号:27222201 阅读:48 留言:0更新日期:2021-02-04 11:42
本发明专利技术一种基于混合注意力网络的事件检测方法及装置,所述方法包括:构建混合注意力网络模型,包括多语言表示层、混合注意力层和分类层;在所述的多语言表示层进行源文本的翻译以及多种语言的目标文本的获取,并且进行了文本的对齐,将多种语言的目标文本转化为句子序列的向量表示;混合注意力层,同时对多种语言的文本并行进行上下文注意力的学习,通过多语言注意力机制进行跨源语言和多种目标语言的信息融合;在分类层进行事件类型的预测分类。类。类。

【技术实现步骤摘要】
一种基于混合注意力网络的事件检测方法及装置


[0001]本专利技术涉及自然语言处理中的事件检测
,尤其涉及一种基于混合注意力网络的事件检测方法及装置。

技术介绍

[0002]事件检测任务就是从纯文本中识别出具有特定类型的事件实例。具体而言,给定一个输入文本,事件检测任务需要确定这个文本中包含的触发词以及触发词所描述的事件类型,它包含事件触发词识别和事件触发词分类两个子任务。举例来说,给定一个纯文本:Three elephants were shot dead。事件检测可以自动从文本中识别出触发词
ꢀ“
shot
”ꢀ
以及其触发的事件子类型 Attack (类型 Con

ict)和触发词
ꢀ“
dead
”ꢀ
以及其触发的事件子类型 Die(类型 Life)。
[0003]尽管当前事件检测问题的研究已经取得了比较大的进展,但是仍然存在两个问题会严重限制当前方法的性能。一是由于数据稀疏而导致的低召回率问题。在训练数据有限的情况下,有些事件类型的训练样例会尤其少,从这些极少的训练样例中学习出来的模型,要从某一事件类型的不同表达形式中识别出正确的事件类型是十分具有挑战性的。二是由于自然语言的歧义性而导致的低精确率。自然语言中存在着多义现象,很多事件触发词也是多义词。
[0004]模型 GMLATT 引入了一种门控双语言的框架,这个模型综合运用原本语言(源语言,source language)文本的信息和翻译过后的一种译文(目标语言, target language)文本的信息,捕获它们之间的一致性部分来缓解数据稀疏,并且利用两种语言的互补信息消除自然语言的歧义性。
[0005]然而,在目前已有的事件检测工作中,还没有模型能够充分利用来自更多种语言的补充信息。并且,由于模型设计的限制,GMLATT模型只能够融合源语言和一种翻译过后的目标语言信息。

技术实现思路

[0006]本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术公开了一种基于混合注意力网络的事件检测方法及装置。所述方法提出了一种混合注意力网络(hybrid attention network,HAN),同时处理源语言和多种目标语言的文本。其中,注意力模块首先分别关注每一种语言文本之中的重要分词(如触发词或者对识别触发词有益的分词),并且给予它们较高的注意力;然后注意力模块进行跨语言的注意力计算,分别给予不同语言的文本不同的注意力,使得不同目标语言中的无歧义的信息能够以监督的方式传递到源语言文本,缓解源语言文本中的歧义。
[0007]一种基于混合注意力网络的事件检测方法,所述方法包括:步骤1,构建混合注意力网络模型,包括多语言表示层、混合注意力层和分类层;步骤2,在所述的多语言表示层进行源文本的翻译以及多种语言的目标文本的获取,并
且进行了文本的对齐,将多种语言的文本转化为句子序列的向量表示;步骤3,在所述的混合注意力层,同时对多种语言的文本并行进行上下文注意力的学习,通过多语言注意力机制进行跨源语言和多种目标语言的信息融合;步骤4,将事件检测任务形式化为一个多类型分类问题,在分类层进行事件类型的预测分类。
[0008]具体地,所述的多语言表示层输入的文本是单词序列文本,处理过程包括以下步骤:使用Google Translate来处理每一条输入的源语言文本,获得多种语言的并行目标语言文本;利用对齐工具 Giza++ 2来进行多种语言文本的对齐;在进行句子表示时,将每个输入分词转化为一个实值向量,这个向量包括以下三种特征表示的联结:1)词向量:词向量能够捕获文本中单词的语义信息,通常被用作各种任务的基本向量;2)实体类型向量:使用标注好的实体信息作为额外特征,随机初始化每个实体类型的向量并且在训练过程中不断更新,不同的语言共享实体向量表;3)位置向量:位置向量表示了上下文分词和当前分词之间的相对距离,它通过查找一个随机初始化的位置向量表获得;由此,输入的文本被转化为一个向量序列,其中,每一个向量都是上述三种特征向量的联结;采用双向门控循环单元分别用两个GRU层在前向和后向处理向量序列,前向GRU层的隐层向量编码从到的序列;相似地,反向GRU层的隐层向量 编码从到 的序列;然后前向隐层向量和反向隐层向量 被联结以组成 的向量表示,即;最后,输入序列的双向门控循环单元表示将作为整个句子的表示向量,源语言文本的向量表示为,第个目标语言文本的向量表示为,其中,和分别是文本的句长。
[0009]具体地,所述的混合注意力层,顺序进行上下文注意力机制和多语言注意力机制来捕获多语言线索。
[0010]具体地,所述的上下文注意力机制的目的是生成上下文向量,挖掘不同种语言的上下文提供的一致性信息,所述的上下文注意力机制会在每种语言上分别进行;给定源语言文本的表示,上下文注意力机制会计算一个上下文表示向量,用于表示源语言文本上下文的综合信息,即:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
,
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中,是权重矩阵,是偏置项,是源语言候选触发词表示和第个分词的表示之间的相关性分数,是第个分词关于候选触发词的注意力权重;对于并行的目标语言文本,找出源语言候选触发词在其中的对应分词,并且进行和源语言相似的步骤获得上下文表示,这个表示表达了第个目标语言文本的综合信息;所述的多语言注意力机制用于捕获源语言和多种目标语言之间,以及目标语言与目标语言之间的互补线索,并且控制互补线索向源语言文本的信息传递以辅助源语言中事件的识别,给定源语言文本的上下文表示和一个多种翻译过后的目标语言的表示集合,其中是目标语言的数量,多语言注意力将会通过卷积和池化操作来计算一个多语言的表示。
[0011]更进一步地,在所述的多语言注意力机制中设计了一个带有卷积滤波器和最大池化层的CNN框架以集成来自于源语言和一系列目标语言文本的互补信息,使用不同宽度的多个卷积滤波器来捕获语义流,具体来说,采用宽度为2和3的多个卷积滤波器对源句和目标句序列中的二元和三元语法语义进行编码,将卷积滤波器的输出输入到一个最大池化层,最终获得了两个固定长度的输出和。
[0012]在分类层进行事件类型的预测分类时,采用一个softmax分类器来识别候选触发词,并且使用,,和 的联结作为分类器的输入:
ꢀꢀꢀꢀꢀꢀ
(4)其中,是权重矩阵,是偏置项,给定表示各种事件类型预测概率的实值向量,候选触发词属于事件类型的概率为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)其中,表示参数集合,是向量的第个元素。
[0013]优选地,所述的混合注意力网络模型训练时,将训练数据中的分词集合表示为,对应的真实的事件类型集合为,其中表示所有分词的数量,最小化多类型交叉熵损失来训练混合注意力网络模型 :<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于混合注意力网络的事件检测方法,其特征在于,所述方法包括:步骤1,构建混合注意力网络模型,包括多语言表示层、混合注意力层和分类层;步骤2,在所述的多语言表示层进行源文本的翻译以及多种语言的目标文本的获取,并且进行了文本的对齐,将多种语言的文本转化为句子序列的向量表示;步骤3,在所述的混合注意力层,同时对多种语言的文本并行进行上下文注意力的学习,通过多语言注意力机制进行跨源语言和多种目标语言的信息融合;步骤4,将事件检测任务形式化为一个多类型分类问题,在分类层进行事件类型的预测分类;所述步骤2中多语言表示层输入的文本是单词序列文本,处理过程包括以下步骤:使用Google Translate来处理每一条输入的源语言文本,获得多种语言的并行目标语言文本;利用对齐工具 Giza++ 2来进行多种语言文本的对齐;在进行句子表示时,将每个输入分词转化为一个实值向量,这个向量包括以下三种特征表示的联结:1)词向量:词向量能够捕获文本中单词的语义信息,通常被用作各种任务的基本向量;2)实体类型向量:使用标注好的实体信息作为额外特征,随机初始化每个实体类型的向量并且在训练过程中不断更新,不同的语言共享实体向量表;3)位置向量:位置向量表示了上下文分词和当前分词之间的相对距离,它通过查找一个随机初始化的位置向量表获得;由此,输入的文本被转化为一个向量序列,其中,每一个向量都是上述三种特征向量的联结;采用双向门控循环单元分别用两个GRU层在前向和后向处理向量序列,前向GRU层的隐层向量编码从到的序列;相似地,反向GRU层的隐层向量 编码从到 的序列;然后前向隐层向量和反向隐层向量 被联结以组成 的向量表示,即;最后,输入序列的双向门控循环单元表示将作为整个句子的表示向量,源语言文本的向量表示为,第个目标语言文本的向量表示为,其中,和分别是文本的句长;所述步骤3中混合注意力层,顺序进行上下文注意力机制和多语言注意力机制来捕获多语言线索;所述的上下文注意力机制的目的是生成上下文向量,挖掘不同种语言的上下文提供的一致性信息,所述的上下文注意力机制会在每种语言上分别进行;给定源语言文本的表示,上下文注意力机制会计算一个上下文表示向量,用于表示源语言文本上下文的综合信息,即:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2),
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中,是权重矩阵,是偏...

【专利技术属性】
技术研发人员:谭真黄培馨赵翔方阳徐浩唐九阳肖卫东张鑫
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1