一种基于词汇增强的事件抽取方法、装置及存储介质制造方法及图纸

技术编号:33063812 阅读:14 留言:0更新日期:2022-04-15 09:53
本申请提供一种基于词汇增强的事件抽取方法、装置及存储介质,涉及自然语言处理技术领域,能够提高事件抽取系统的性能,从而提高事件抽取结果的准确性。该方法包括:获取文本信息中包括的事件类型;采用事件元素抽取模型,获取文本信息中每个句子的事件元素,其中,事件元素抽取模型中基于词汇增强模型对字符向量及词语向量进行上下文编码,词语向量是基于外部语料采用词向量模型获取,上下文编码采用相对位置编码;根据文本信息中每个句子的事件元素,采用分类算法分别获取每种事件类型的关键句;将每种事件类型的关键句的事件元素,分别填充至每种事件类型对应的事件记录模板中,得到每种事件类型的事件记录。得到每种事件类型的事件记录。得到每种事件类型的事件记录。

【技术实现步骤摘要】
一种基于词汇增强的事件抽取方法、装置及存储介质


[0001]本申请涉及自然语言处理
,更具体地,涉及一种基于词汇增强的事件抽取方法、装置及存储介质。

技术介绍

[0002]事件抽取是自然语言处理领域的重要任务之一。该任务是从文本中自动抽取事件信息,包括事件涉及的人物、机构、发生时间、发生地点、事件名称以及相应的事件描述等。
[0003]现有的事件抽取系统大多采用来自变换器的双向编码器表征量(Bidirectional Encoder Representations from Transformer,BERT)对文本进行表征,由于BERT的通用性,BERT是对针对所有语言设计的,没有专门针对中文语料设计,无法利用中文语料中的词语信息和领域词典的实体信息,从而导致事件抽取的结果与理想的结果不同。
[0004]因此,如何提高事件抽取系统的性能,是业界丞待解决的问题。

技术实现思路

[0005]本申请提供一种基于词汇增强的事件抽取方法、装置及存储介质,能够提高事件抽取系统的性能,从而提高事件抽取结果的准确性。
[0006]第一方面,提供一种基于词汇增强的事件抽取方法,包括:获取文本信息中包含的事件类型,一个事件类型用于指示一个目标事件;采用事件元素抽取模型,获取文本信息中每个句子的事件元素;根据文本信息中每个句子的事件元素,采用分类算法分别获取每种事件类型的关键句;将每种事件类型的关键句的事件元素,分别填充至每种事件类型对应的事件记录模板中,得到每种事件类型的事件记录;其中,一个事件类型对应的事件记录模板用于记录该事件类型的关键句的事件元素。其中,事件元素抽取模型中基于词汇增强模型对字符向量及词语向量进行上下文编码,词语向量是基于外部语料采用词向量模型获取,上下文编码采用相对位置编码,一个事件类型对应的事件记录模板用于记录该事件类型的关键句的事件元素。
[0007]基于本申请提供的技术方案,至少可以产生以下有益效果:本申请通过事件元素抽取模型获取文本信息中每个句子包含的事件元素,根据文本信息中包含的事件类型获取每种事件类型对应的关键句,将每种事件类型对应的关键句的事件元素,填充至每种事件类型对应的事件记录模板中,就可以得到每种事件类型的事件记录。由于本申请中的事件元素抽取模型中融合了词汇增强模型,引入了中文词语信息,将字符向量和词语向量相结合,利用相对位置编码获取字符向量和词语向量之间的位置信息,提高了处理中文文本信息时抽取的事件元素的准确度,使事件抽取的结果更符合对于中文文本信息识别的实际需求,提高了事件抽取结果的准确性,从而提高了事件抽取系统的性能。同时增加了关键句识别步骤,当文本信息为篇章级文本时,通过获取文本信息中包含的每种事件类型对应的关键句,由于关键句可以体现每种事件类型包含的核心事件元素,可以仅根据事件类型对应的关键句获取事件类型对应的事件记录,无需从全部的文本信息中提取,将处理过程简单
化,解决了篇章级文本事件抽取问题,从而进一步提高了事件抽取系统的性能。
[0008]可选的,当分类算法采用预设规则时,根据文本信息中每个句子的事件元素,采用分类算法分别获取每种事件类型的关键句,包括:获取每种事件类型的核心事件元素和其他事件元素;将文本信息中,满足第一事件类型的预设规则的句子,确定为第一事件类型的关键句,第一事件类型的预设规则包括:包含的第一事件类型的核心事件元素数量大于或等于第一阈值,且包含的全部事件元素的数量大于或等于第二阈值;第一事件类型为任一事件类型。通过采用预设规则,减少模型训练的过程,提高处理效率。
[0009]可选的,当分类算法采用关键句识别模型时,根据文本信息中每个句子的事件元素,采用分类算法分别获取每种事件类型的关键句,包括:将事件类型和文本信息中每个句子的特征集合,输入关键句识别模型中,获取关键句识别模型输出的事件类型的关键句,特征集合包括句子索引、长度、事件元素数目、核心事件元素数目以及其他事件元素数目中的一项或多项。通过采用关键句识别模型,节省识别时间,更加方便快捷。
[0010]可选的,获取文本信息中包括的事件类型,包括:将文本信息输入文本分类模型,获取文本信息中包含M种事件类型中每种目标事件类型的概率;M为正整数;将概率大于或等于预设概率的事件类型,确定为文本信息中包括的事件类型。将概率大于或等于预设概率的事件类型保留下来,作为本文信息包括的事件类型,也即将概率小于预设概率的事件类型剔除,为后续处理节省了不必要的繁琐。
[0011]可选的,将文本信息输入文本分类模型,获取文本信息中包含M种事件类型中每种目标事件类型的概率,包括:采用预训练模型计算文本信息中每个句子的全部字符的嵌入向量;根据每个句子的全部字符的嵌入向量,确定文本信息的嵌入向量;根据文本信息的嵌入向量,确定文本信息中包含M种事件的概率。
[0012]可选的,在进行填充时,若一个事件类型的关键句中,缺少一个事件类型的事件记录模板中的第一事件元素,从一个事件类型的关键句的上下文中获取第一事件元素。由于事件类型关键句的上下文与关键句衔接最紧密。因此,从关键句的上下文中寻找第一事件元素,可以较为准确的获取第一事件元素。
[0013]其中,关键句的上下文可以为关键句的前N句和/或后X句,N为大于或等于1的整数,X为大于或等于1的整数。
[0014]可选的,词汇增强模型包括FLAT模型,词向量模型包括Wor2Vec模型。通过采用FLAT模型来代替传统命名实体识别模型中的BiLSTM模块,可以有效地加入中文词汇信息,利用外部词汇信息可以极大地提升事件抽取系统的性能。
[0015]可选的,通过相对位置编码可以更好的学习字符和词语之间的距离信息,极大地提升事件元素抽取模型的性能。
[0016]可选的,文本分类模型在训练过程中进行Fine

tuning,以更好的学习任务语料的嵌入向量。
[0017]第二方面,提供一种基于词汇增强的事件抽取装置,包括获取模块、抽取模块、关键句识别模块以及填充模块,其中:获取模块,用于获取文本信息中包含的事件类型,一个事件类型用于指示一个目标事件;抽取模块,用于采用事件元素抽取模型,获取文本信息中每个句子的事件元素,其
中,事件元素抽取模型基于词汇增强模型对字符向量及词语向量进行上下文编码,词语向量是基于外部语料采用词向量模型获取,上下文编码采用相对位置编码;关键句识别模块,用于根据文本信息中每个句子的事件元素,采用分类算法分别获取每种事件类型的关键句;填充模块,用于将每种事件类型的关键句的事件元素,分别填充至每种事件类型对应的事件记录模板中,得到每种事件类型的事件记录;其中,一个事件类型对应的事件记录模板用于记录该事件类型的关键句的事件元素。
[0018]可选的,当分类算法采用预设规则时,关键句识别模块具体用于:获取每种事件类型的核心事件元素和其他事件元素;将文本信息中,满足第一事件类型的预设规则的句子,确定为第一事件类型的关键句。其中,第一事件类型的预设规则包括:本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于词汇增强的事件抽取方法,其特征在于,包括:获取文本信息中包含的事件类型,一个所述事件类型用于指示一个目标事件;采用事件元素抽取模型,获取所述文本信息中每个句子的事件元素,其中,所述事件元素抽取模型基于词汇增强模型对字符向量及词语向量进行上下文编码,所述词语向量是基于外部语料采用词向量模型获取,所述上下文编码采用相对位置编码;根据所述文本信息中每个句子的事件元素,采用分类算法分别获取每种事件类型的关键句;将所述每种事件类型的关键句的事件元素,分别填充至所述每种事件类型对应的事件记录模板中,得到所述每种事件类型的事件记录;其中,一个事件类型对应的事件记录模板用于记录该事件类型的关键句的事件元素。2.根据权利要求1所述的方法,其特征在于,所述分类算法采用预设规则;根据所述文本信息中每个句子的事件元素,采用分类算法分别获取每种事件类型的关键句,包括:获取所述每种事件类型的核心事件元素和其他事件元素;将所述文本信息中,满足第一事件类型的预设规则的句子,确定为所述第一事件类型的关键句,所述第一事件类型的预设规则包括:包含的所述第一事件类型的核心事件元素数量大于或等于第一阈值,且包含的全部事件元素的数量大于或等于第二阈值;所述第一事件类型为任一事件类型。3.根据权利要求1所述的方法,其特征在于,所述分类算法采用关键句识别模型;根据所述文本信息中每个句子的事件元素,采用分类算法分别获取每种事件类型的关键句,包括:将所述事件类型和所述文本信息中每个句子的特征集合,输入所述关键句识别模型中,获取所述关键句识别模型输出的事件类型的关键句,所述特征集合包括句子索引、长度、事件元素数目、核心事件元素数目以及其他事件元素数目中的一项或多项。4.根据权利要求2或3所述的方法,其特征在于,所述获取文本信息中包括的事件类型,包括:将所述文本信息输入文本分类模型,获取所述文本信息中包含M种事件类型中每种目标事件类型的概率;M为正整数;将概率大于或等于预设概率的事件类型,确定为所述文本信息中包括的事件类型。5.根据权利要求4所述的方法,其特征在于,将所述文本信息输入文本分类模型,获取所述文本信息中包含M种事件类型中每种目标事件类型的概率,包括:采用预训练模型计算所述文本信息中每个句子的全部字符的嵌入向量;根据所述每个句子的全部字符的嵌入向量,确定所述文本信息的嵌入向量;根据所述文本信息的嵌入向量,确定所述文本信息中包含M种事件的概率。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:若一个事件类型的关键句中,缺少所述一个事件类型的事件记录模板中的第一事件元素,...

【专利技术属性】
技术研发人员:姜伟浩张浩
申请(专利权)人:杭州海康威视数字技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1