一种基于词汇增强的事件抽取方法、装置及存储介质制造方法及图纸

技术编号：33063812 阅读：14 留言：0更新日期：2022-04-15 09:53

本申请提供一种基于词汇增强的事件抽取方法、装置及存储介质，涉及自然语言处理技术领域，能够提高事件抽取系统的性能，从而提高事件抽取结果的准确性。该方法包括：获取文本信息中包括的事件类型；采用事件元素抽取模型，获取文本信息中每个句子的事件元素，其中，事件元素抽取模型中基于词汇增强模型对字符向量及词语向量进行上下文编码，词语向量是基于外部语料采用词向量模型获取，上下文编码采用相对位置编码；根据文本信息中每个句子的事件元素，采用分类算法分别获取每种事件类型的关键句；将每种事件类型的关键句的事件元素，分别填充至每种事件类型对应的事件记录模板中，得到每种事件类型的事件记录。得到每种事件类型的事件记录。得到每种事件类型的事件记录。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于词汇增强的事件抽取方法、装置及存储介质

[0001]本申请涉及自然语言处理
，更具体地，涉及一种基于词汇增强的事件抽取方法、装置及存储介质。

技术介绍

[0002]事件抽取是自然语言处理领域的重要任务之一。该任务是从文本中自动抽取事件信息，包括事件涉及的人物、机构、发生时间、发生地点、事件名称以及相应的事件描述等。
[0003]现有的事件抽取系统大多采用来自变换器的双向编码器表征量(Bidirectional Encoder Representations from Transformer，BERT)对文本进行表征，由于BERT的通用性，BERT是对针对所有语言设计的，没有专门针对中文语料设计，无法利用中文语料中的词语信息和领域词典的实体信息，从而导致事件抽取的结果与理想的结果不同。
[0004]因此，如何提高事件抽取系统的性能，是业界丞待解决的问题。

技术实现思路

[0005]本申请提供一种基于词汇增强的事件抽取方法、装置及存储介质，能够提高事件抽取系统的性能，从而提高事件抽取结果的准确性。
[0006]第一方面，提供一种基于词汇增强的事件抽取方法，包括：获取文本信息中包含的事件类型，一个事件类型用于指示一个目标事件；采用事件元素抽取模型，获取文本信息中每个句子的事件元素；根据文本信息中每个句子的事件元素，采用分类算法分别获取每种事件类型的关键句；将每种事件类型的关键句的事件元素，分别填充至每种事件类型对应的事件记录模板中，得到每种事件类型的事件记录；其中，一个...

【技术保护点】

【技术特征摘要】
1.一种基于词汇增强的事件抽取方法，其特征在于，包括：获取文本信息中包含的事件类型，一个所述事件类型用于指示一个目标事件；采用事件元素抽取模型，获取所述文本信息中每个句子的事件元素，其中，所述事件元素抽取模型基于词汇增强模型对字符向量及词语向量进行上下文编码，所述词语向量是基于外部语料采用词向量模型获取，所述上下文编码采用相对位置编码；根据所述文本信息中每个句子的事件元素，采用分类算法分别获取每种事件类型的关键句；将所述每种事件类型的关键句的事件元素，分别填充至所述每种事件类型对应的事件记录模板中，得到所述每种事件类型的事件记录；其中，一个事件类型对应的事件记录模板用于记录该事件类型的关键句的事件元素。2.根据权利要求1所述的方法，其特征在于，所述分类算法采用预设规则；根据所述文本信息中每个句子的事件元素，采用分类算法分别获取每种事件类型的关键句，包括：获取所述每种事件类型的核心事件元素和其他事件元素；将所述文本信息中，满足第一事件类型的预设规则的句子，确定为所述第一事件类型的关键句，所述第一事件类型的预设规则包括：包含的所述第一事件类型的核心事件元素数量大于或等于第一阈值，且包含的全部事件元素的数量大于或等于第二阈值；所述第一事件类型为任一事件类型。3.根据权利要求1所述的方法，其特征在于，所述分类算法采用关键句识别模型；根据所述文本信息中每个句子的事件元素，采用分类算法分别获取每种事件类型的关键句，包括：将所述事件类型和所述文本信息中每个句子的特征集合，输入所述关键句识别模型中，获取所述关键句识别模型输出的事件类型的关键句，所述特征集合包括句子索引、长度、事件元素数目、核心事件元素数目以及其他事件元素数目中的一项或多项。4.根据权利要求2或3所述的方法，其特征在于，所述获取文本信息中包括的事件类型，包括：将所述文本信息输入文本分类模型，获取所述文本信息中包含M种事件类型中每种目标事件类型的概率；M为正整数；将概率大于或等于预设概率的事件类型，确定为所述文本信息中包括的事件类型。5.根据权利要求4所述的方法，其特征在于，将所述文本信息输入文本分类模型，获取所述文本信息中包含M种事件类型中每种目标事件类型的概率，包括：采用预训练模型计算所述文本信息中每个句子的全部字符的嵌入向量；根据所述每个句子的全部字符的嵌入向量，确定所述文本信息的嵌入向量；根据所述文本信息的嵌入向量，确定所述文本信息中包含M种事件的概率。6.根据权利要求1所述的方法，其特征在于，所述方法还包括：若一个事件类型的关键句中，缺少所述一个事件类型的事件记录模板中的第一事件元素，...

【专利技术属性】
技术研发人员：姜伟浩，张浩，
申请(专利权)人：杭州海康威视数字技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人