基于双向事件完全图的文档级事件联合抽取方法及系统技术方案

技术编号:37464856 阅读:11 留言:0更新日期:2023-05-06 09:38
本发明专利技术提供了一种基于双向事件完全图的文档级事件联合抽取方法及系统,该方法包括:根据各样本事件类型与论元角色之间的关系,构建三元组关联关系;根据标注语料中各事件记录信息中的词语和三元组关联关系,构建样本双向事件完全图;分别构建各样本文档的邻接矩阵,根据样本双向事件完全图对各邻接矩阵进行标识填充,得到样本邻接矩阵;根据各样本邻接矩阵和各样本文档,对事件联合抽取模型进行训练;将待抽取文档输入收敛后的事件联合抽取模型进行事件抽取,得到事件信息。本发明专利技术基于各样本邻接矩阵和各样本文档对事件联合抽取模型进行训练,使得收敛后的事件联合抽取模型能有效地抽取到待抽取文档中的事件信息,提高了事件抽取的准确性。事件抽取的准确性。事件抽取的准确性。

【技术实现步骤摘要】
基于双向事件完全图的文档级事件联合抽取方法及系统


[0001]本专利技术涉及信息抽取
,尤其涉及一种基于双向事件完全图的文档级事件联合抽取方法及系统。

技术介绍

[0002]语句级事件抽取旨在从单个语句中抽取事件相关的信息,然而一个事件的成分可能散落的多个语句中,导致事件论元出现跨句现象。因此,需要从整个文档范围中抽取事件。由于同一个事件在一个文档中存在多次提及、一个文档可能包含多个不同事件,使得文档级事件抽取需要解决多事件识别问题。文档级事件抽取需要完成实体识别、事件类型判断、事件识别、事件论元角色识别等任务。
[0003]现有的文档级事件抽取过程中,一般采用流水线模式实现文档级事件抽取,导致任务之间存在严重的错误传播,如论元角色识别需要基于实体识别的结果,不准确的实体识别将导致论元角色识别效果较低。

技术实现思路

[0004]本专利技术实施例的目的在于提供一种基于双向事件完全图的文档级事件联合抽取方法及系统,旨在解决现有的文档级事件抽取过程中,事件抽取准确性低下的问题。
[0005]本专利技术实施例是这样实现的,一种基于双向事件完全图的文档级事件联合抽取方法,所述方法包括:获取样本事件类型,并根据各样本事件类型与论元角色之间的关系,构建三元组关联关系,所述三元组关联关系用于表征各词语所属的样本事件类型、扮演的论元角色、与其关联词语的论元角色;获取标注语料中的事件记录信息,并根据各事件记录信息中的词语和所述三元组关联关系,构建样本双向事件完全图,所述样本双向事件完全图用于表征各事件记录中词语之间的关联;分别构建所述标注语料中各样本文档的邻接矩阵,并根据所述样本双向事件完全图对各邻接矩阵进行标识填充,得到样本邻接矩阵;根据各样本邻接矩阵和各样本文档,对事件联合抽取模型进行训练,直至所述事件联合抽取模型收敛;将待抽取文档输入收敛后的所述事件联合抽取模型进行事件抽取,得到事件信息。
[0006]优选的,所述根据各样本事件类型与论元角色之间的关系,构建三元组关联关系,包括:分别获取各样本事件类型的论元角色集合,并将所述论元角色集合中的不同论元角色进行组合,得到论元角色对;针对各样本事件类型,分别与对应的各论元角色对进行组合,得到所述三元组关
联关系,并对所述三元组关联关系进行标识编号。
[0007]优选的,所述根据各事件记录信息中的词语和所述三元组关联关系,构建样本双向事件完全图,包括:分别获取各事件记录信息的事件类型,并分别将各事件记录信息中的事件词语进行组合,得到词语对;分别获取各词语对的论元角色,并针对各事件记录信息,将对应的所述事件类型和各词语对的论元角色进行边类型组合,得到所述样本双向事件完全图;根据所述三元组关联关系中标识对所述样本双向事件完全图进行编号。
[0008]优选的,所述分别构建所述标注语料中各样本文档的邻接矩阵,并根据所述样本双向事件完全图对各邻接矩阵进行标识填充,得到样本邻接矩阵,包括:分别获取各样本文档的词语数,并根据所述词语数建立所述邻接矩阵;分别查询所述样本双向事件完全图中各词语对在所述邻接矩阵中的填充位置;根据所述样本双向事件完全图中各词语对携带的编号对相对应的所述填充位置进行标识填充,得到所述样本邻接矩阵。
[0009]优选的,所述根据各样本邻接矩阵和各样本文档,对事件联合抽取模型进行训练,包括:根据所述事件联合抽取模型中的编码层对各样本文档中的文档词语进行向量初始化,并获取捕获各文档词语之间的位置信息,得到特征编码信息;根据所述事件联合抽取模型中的分类层对各特征编码信息进行事件分类预测,得到预测邻接矩阵,并根据所述预测邻接矩阵和所述样本邻接矩阵确定模型损失;根据所述模型损失对所述编码层和所述分类层进行参数更新,直至所述编码层和所述分类层收敛,得到收敛后的所述事件联合抽取模型。
[0010]优选的,所述将待抽取文档输入收敛后的所述事件联合抽取模型进行事件抽取,得到事件信息,包括:根据收敛后的所述事件联合抽取模型对所述待抽取文档进行事件分类预测,得到输出邻接矩阵,并对所述输出邻接矩阵进行结构解码,得到解码双向事件完全图;获取所述解码双向事件完全图中的完全子图,并根据各完全子图中边类型的编号进行结构转换,得到输出三元组关联关系;获取所述输出三元组关联关系中的事件类型和论元角色,得到所述事件信息。
[0011]优选的,所述根据各样本邻接矩阵和各样本文档,对事件联合抽取模型进行训练之后,还包括:分别计算所述事件联合抽取模型的精确率、召回率和F1值;当所述事件联合抽取模型的精确率、召回率和F1值均大于对应的收敛阈值时,则判定所述事件联合抽取模型收敛;所述计算所述事件联合抽取模型的精确率、召回率和F1值采用的公式包括:
;其中,Precision表示所述精确率,Recall表示所述召回率,TP表示被预测为正且真实值为正的样本数,FP表示被预测为正但真实值为负的样本数,FN为被预测为负但真实值为正的样本数。
[0012]本专利技术实施例的另一目的在于提供一种基于双向事件完全图的文档级事件联合抽取系统,所述系统包括:关系构建模块,用于获取样本事件类型,并根据各样本事件类型与论元角色之间的关系,构建三元组关联关系,所述三元组关联关系用于表征各词语所属的样本事件类型、扮演的论元角色、与其关联词语的论元角色;完全图构建模块,用于获取标注语料中的事件记录信息,并根据各事件记录信息中的词语和所述三元组关联关系,构建样本双向事件完全图,所述样本双向事件完全图用于表征各事件记录中词语之间的关联;邻接矩阵构建模块,用于分别构建所述标注语料中各样本文档的邻接矩阵,并根据所述样本双向事件完全图对各邻接矩阵进行标识填充,得到样本邻接矩阵;模型训练模块,用于根据各样本邻接矩阵和各样本文档,对事件联合抽取模型进行训练,直至所述事件联合抽取模型收敛;事件抽取模块,用于将待抽取文档输入收敛后的所述事件联合抽取模型进行事件抽取,得到事件信息。
[0013]本专利技术实施例,通过构建三元组关联关系,能有效地确定各词语在特定事件类型下扮演指定角色的论元,通过构建样本双向事件完全图和样本邻接矩阵,能有效地确定同一个事件中词语之间的关联,基于各样本邻接矩阵和各样本文档对事件联合抽取模型进行训练,使得收敛后的事件联合抽取模型能有效地抽取到待抽取文档中的事件信息,防止了基于流水线模式的错误传播问题,提高了事件抽取的准确性。
附图说明
[0014]图1是本专利技术第一实施例提供的基于双向事件完全图的文档级事件联合抽取方法的流程图;图2是本专利技术第一实施例提供的事件记录信息和词语

词语邻接矩阵的示意图;图3是本专利技术第二实施例提供的基于双向事件完全图的文档级事件联合抽取方法的流程图;图4是本专利技术第二实施例提供的事件联合抽取模型训练的示意图;图5是本专利技术第三实施例提供的基于双向事件完全图的文档级事件联合抽取系统的结构示意图;
图6是本专利技术第四实施例提供的终端设备的结构示意图。
具体实施方式
[0015]为了使本专利技术的目的、技术方案及优点本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于双向事件完全图的文档级事件联合抽取方法,其特征在于,所述方法包括:获取样本事件类型,并根据各样本事件类型与论元角色之间的关系,构建三元组关联关系,所述三元组关联关系用于表征各词语所属的样本事件类型、扮演的论元角色、与其关联词语的论元角色;获取标注语料中的事件记录信息,并根据各事件记录信息中的词语和所述三元组关联关系,构建样本双向事件完全图,所述样本双向事件完全图用于表征各事件记录中词语之间的关联;分别构建所述标注语料中各样本文档的邻接矩阵,并根据所述样本双向事件完全图对各邻接矩阵进行标识填充,得到样本邻接矩阵;根据各样本邻接矩阵和各样本文档,对事件联合抽取模型进行训练,直至所述事件联合抽取模型收敛;将待抽取文档输入收敛后的所述事件联合抽取模型进行事件抽取,得到事件信息。2.如权利要求1所述的基于双向事件完全图的文档级事件联合抽取方法,其特征在于,所述根据各样本事件类型与论元角色之间的关系,构建三元组关联关系,包括:分别获取各样本事件类型的论元角色集合,并将所述论元角色集合中的不同论元角色进行组合,得到论元角色对;针对各样本事件类型,分别与对应的各论元角色对进行组合,得到所述三元组关联关系,并对所述三元组关联关系进行标识编号。3.如权利要求2所述的基于双向事件完全图的文档级事件联合抽取方法,其特征在于,所述根据各事件记录信息中的词语和所述三元组关联关系,构建样本双向事件完全图,包括:分别获取各事件记录信息的事件类型,并分别将各事件记录信息中的事件词语进行组合,得到词语对;分别获取各词语对的论元角色,并针对各事件记录信息,将对应的所述事件类型和各词语对的论元角色进行边类型组合,得到所述样本双向事件完全图;根据所述三元组关联关系中标识对所述样本双向事件完全图进行编号。4.如权利要求3所述的基于双向事件完全图的文档级事件联合抽取方法,其特征在于,所述分别构建所述标注语料中各样本文档的邻接矩阵,并根据所述样本双向事件完全图对各邻接矩阵进行标识填充,得到样本邻接矩阵,包括:分别获取各样本文档的词语数,并根据所述词语数建立所述邻接矩阵;分别查询所述样本双向事件完全图中各词语对在所述邻接矩阵中的填充位置;根据所述样本双向事件完全图中各词语对携带的编号对相对应的所述填充位置进行标识填充,得到所述样本邻接矩阵。5.如权利要求1所述的基于双向事件完全图的文档级事件联合抽取方法,其特征在于,所述根据各样本邻接矩阵和各样本文档,对事件联合抽取模型进行训练,包括:根据所述事件联合抽取模型中的编码层对各样本文档中的文档词语进行向量初始化,并获取捕获各文档词语之间的位置信息,得到特征编码信息;根据所述事件联合抽取模型中的分类层对各特征编码信息进行事件分类预测,得到预测邻接矩阵,并根据所述预测邻接矩阵和所述样本邻接矩阵确定模型损失;
根据所述模型损失对所述编码层和所述分类层进行参数更新,直至所述编码层和所述分类层收敛,得到收敛后的所述事件联合抽取模型。6.如权利要求1所述的基于双向事件完全图的文档级事件联合抽取方法,其特征在于,所述将...

【专利技术属性】
技术研发人员:万齐智万常选胡蓉刘德喜刘喜平
申请(专利权)人:江西财经大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1