事件抽取方法及装置制造方法及图纸

技术编号:38660610 阅读:11 留言:0更新日期:2023-09-02 22:44
本公开提供了一种事件抽取方法及装置,该方法首先依据小样本数据对通用信息抽取模型进行微调,然后将生语料数据输入微调后的通用信息抽取模型进行预测,得到新增样本数据,之后将小样本数据和新增样本数据作为训练数据对ERNIE模型进行训练,依据训练好的ERNIE模型对目标文本进行编码,得到相应的特征向量,最后依据Global Pointer模型对特征向量进行解码,得到事件元素,该方法基于UIE、ERNIE和Global Pointer进行事件元素的抽取,可以针对领域事件抽取标注数据样本较少的问题,通过自动化的方式对训练样本进行扩充,将准确率、召回率和F1作为评价指标,提高了事件识别任务上和论元识别任务上的F1值,能有效提升小样本下的抽取性能,并且还解决了论元重叠的问题。并且还解决了论元重叠的问题。并且还解决了论元重叠的问题。

【技术实现步骤摘要】
事件抽取方法及装置


[0001]本公开涉及文本处理
,尤其涉及事件抽取方法及装置。

技术介绍

[0002]事件抽取(Event Extraction,EE)是信息抽取领域中一个重要的研究方向之一,其任务目标是从自然语言文本中识别事件类型与事件论元,是为商业、科技等领域情报工作服务的人工智能应用的重要技术基础。随着用户从开源数据中获取事件信息的需求逐渐增多,事件抽取在自动化信息抽取研究领域愈加重要。
[0003]随着互联网数据逐年积累,网络中的文本数据越来越多。事件抽取可以从海量文本数据中抽取用户需要的事件元素以结构化形式进行表示。经过事件抽取以获得结构化数据,使文本主干内容更加清晰,是问答系统、决策支持等领域应用的数据基础。
[0004]目前主要采用的事件抽取方法是机器学习的事件抽取方法。机器学习的方法是通过学习将下层输入转化为更加抽象的上层输出,重复进行转化直到输出特征。但是,针对领域中文文本事件抽取,基于百科、新闻数据的领域数据标注样本较少,缺少相关数据集,并且存在论元重叠的问题,小样本下的事件抽取性能较差,难以满足用户的需求。

技术实现思路

[0005]为了解决上述技术问题中的至少一个,本公开提供了事件抽取方法及装置。
[0006]本公开第一方面提出了一种事件抽取方法,包括:依据小样本数据对通用信息抽取模型进行微调;将生语料数据输入微调后的通用信息抽取模型进行预测,得到新增样本数据;将所述小样本数据和所述新增样本数据作为训练数据对ERNIE模型进行训练;依据训练好的ERNIE模型对目标文本进行编码,得到相应的特征向量;依据Global Pointer模型对所述特征向量进行解码,得到事件元素。
[0007]根据本公开的一个实施方式,依据小样本数据对通用信息抽取模型进行微调,包括:将结构模式指导器SSI的信息和小样本数据输入所述通用信息抽取模型,得到目标文本中的正样例;引入负样例作为噪声样例,得到包括所述正样例和所述负样例的样例集合;依据所述样例集合和交叉熵损失函数计算损失值。
[0008]根据本公开的一个实施方式,所述正样例包括事件类别的正样例和事件论元的正样例。
[0009]根据本公开的一个实施方式,将所述小样本数据和所述新增样本数据作为训练数据对ERNIE模型进行训练,包括:通过分词编码器将所述训练数据转换为第一向量;将所述第一向量输入ERNIE模型得到第一张量;对第一张量进行切割,得到第一切割张量和第二切割张量;通过旋转位置编码将相对位置信息加入到所述第一切割张量和所述第二切割张量中;对所述第一切割张量和所述第二切割张量进行求和;依据求和结果计算损失值,并通过反向传播对所述编码输出进行调整。
[0010]根据本公开的一个实施方式,所述ERNIE模型为Transformer模型,所述
Transformer模型包括编码器Encoder和解码器Decoder。
[0011]根据本公开的一个实施方式,所述第一向量包括:input_ids向量、attention_mask向量和token_type_ids向量。
[0012]根据本公开的一个实施方式,所述第一张量具有多个维度,所述多个维度包括:当前批次中的样本数、句子中的位置数量和所述编码器的节点数。
[0013]根据本公开的一个实施方式,在对第一张量进行切割之前,先将所述第一张量输入线性层进行形状调整,得到调整后的第一张量。
[0014]根据本公开的一个实施方式,依据求和结果计算损失值,包括:将求和结果中的二维矩阵和相应的正确标签矩阵输入损失函数,算出预测值与正确值;依据所述预测值和所述正确值计算损失值。
[0015]本公开第二方面提出了一种事件抽取装置,包括:存储器,所述存储器存储执行指令;以及处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行上述任一实施方式所述的事件抽取方法。
附图说明
[0016]附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
[0017]图1是根据本公开的一个实施方式的事件抽取方法的流程示意图。
[0018]图2是根据本公开的一个实施方式的事件抽取方法的模型结构示意图。
[0019]图3是根据本公开的一个实施方式的分词编码器进行文本分词的示意图。
[0020]图4是根据本公开的一个实施方式的特征编码求和结果中的一个二维矩阵的示意图。
[0021]图5是根据本公开的一个实施方式的BERT模型和ERNIE模型的mask策略区别示意图。
[0022]图6是根据本公开的一个实施方式的编码矩阵中表示触发词论元位置的示意图。
[0023]图7是根据本公开的一个实施方式的编码矩阵中表地点词论元位置的示意图。
[0024]图8是根据本公开的一个实施方式的编码矩阵中表示主体论元位置的示意图。
[0025]图9是根据本公开的一个实施方式的编码矩阵中表示时间论元位置的示意图。
[0026]图10是根据本公开的一个实施方式的存在论元重叠时编码矩阵的示意图。
[0027]图11是根据本公开的一个实施方式的采用处理系统的硬件实现方式的事件抽取装置的示意图。
具体实施方式
[0028]下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。
[0029]需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。
[0030]除非另有说明,否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此,除非另有说明,否则在不脱离本公开的技术构思的情况下,各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。
[0031]本文使用的术语是为了描述具体实施例的目的,而不是限制性的。如这里所使用的,除非上下文另外清楚地指出,否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外,当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时,说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组,但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是,如这里使用的,术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语,如此,它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。
[0032]下面参考附图描述本公开的事件抽取方法及装置。
[0033]事件抽取任务可以分为限定域事件抽取与开放域事件抽取,其中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种事件抽取方法,其特征在于,包括:依据小样本数据对通用信息抽取模型进行微调;将生语料数据输入微调后的通用信息抽取模型进行预测,得到新增样本数据;将所述小样本数据和所述新增样本数据作为训练数据对ERNIE模型进行训练;依据训练好的ERNIE模型对目标文本进行编码,得到相应的特征向量;依据GlobalPointer模型对所述特征向量进行解码,得到事件元素。2.根据权利要求1所述的方法,其特征在于,依据小样本数据对通用信息抽取模型进行微调,包括:将结构模式指导器SSI的信息和小样本数据输入所述通用信息抽取模型,得到目标文本中的正样例;引入负样例作为噪声样例,得到包括所述正样例和所述负样例的样例集合;依据所述样例集合和交叉熵损失函数计算损失值。3.根据权利要求2所述的方法,其特征在于,所述正样例包括事件类别的正样例和事件论元的正样例。4.根据权利要求1所述的方法,其特征在于,将所述小样本数据和所述新增样本数据作为训练数据对ERNIE模型进行训练,包括:通过分词编码器将所述训练数据转换为第一向量;将所述第一向量输入ERNIE模型得到第一张量;对第一张量进行切割,得到第一切割张量和第二切割张量;通过旋转位置编码将相对位置信息加入到所述第一切割张量和所述第二切割张量中;对所述...

【专利技术属性】
技术研发人员:孟繁绅郭冬冬苗琳李宁刘秀磊
申请(专利权)人:北京信息科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1