基于双向事件完全图的文档级事件联合抽取方法及系统技术方案

技术编号：37464856 阅读：11 留言：0更新日期：2023-05-06 09:38

本发明专利技术提供了一种基于双向事件完全图的文档级事件联合抽取方法及系统，该方法包括：根据各样本事件类型与论元角色之间的关系，构建三元组关联关系；根据标注语料中各事件记录信息中的词语和三元组关联关系，构建样本双向事件完全图；分别构建各样本文档的邻接矩阵，根据样本双向事件完全图对各邻接矩阵进行标识填充，得到样本邻接矩阵；根据各样本邻接矩阵和各样本文档，对事件联合抽取模型进行训练；将待抽取文档输入收敛后的事件联合抽取模型进行事件抽取，得到事件信息。本发明专利技术基于各样本邻接矩阵和各样本文档对事件联合抽取模型进行训练，使得收敛后的事件联合抽取模型能有效地抽取到待抽取文档中的事件信息，提高了事件抽取的准确性。事件抽取的准确性。事件抽取的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
基于双向事件完全图的文档级事件联合抽取方法及系统

[0001]本专利技术涉及信息抽取
，尤其涉及一种基于双向事件完全图的文档级事件联合抽取方法及系统。

技术介绍

[0002]语句级事件抽取旨在从单个语句中抽取事件相关的信息，然而一个事件的成分可能散落的多个语句中，导致事件论元出现跨句现象。因此，需要从整个文档范围中抽取事件。由于同一个事件在一个文档中存在多次提及、一个文档可能包含多个不同事件，使得文档级事件抽取需要解决多事件识别问题。文档级事件抽取需要完成实体识别、事件类型判断、事件识别、事件论元角色识别等任务。
[0003]现有的文档级事件抽取过程中，一般采用流水线模式实现文档级事件抽取，导致任务之间存在严重的错误传播，如论元角色识别需要基于实体识别的结果，不准确的实体识别将导致论元角色识别效果较低。

技术实现思路

[0004]本专利技术实施例的目的在于提供一种基于双向事件完全图的文档级事件联合抽取方法及系统，旨在解决现有的文档级事件抽取过程中，事件抽取准确性低下的问题。
[0005]本专利技术实施例是这样实现的，一种基于双向事件完全图的文档级事件联合抽取方法，所述方法包括：获取样本事件类型，并根据各样本事件类型与论元角色之间的关系，构建三元组关联关系，所述三元组关联关系用于表征各词语所属的样本事件类型、扮演的论元角色、与其关联词语的论元角色；获取标注语料中的事件记录信息，并根据各事件记录信息中的词语和所述三元组关联关系，构建样本双向事件完全图，所述样本双向事件完全图用于表征各...

【技术保护点】

【技术特征摘要】
1.一种基于双向事件完全图的文档级事件联合抽取方法，其特征在于，所述方法包括：获取样本事件类型，并根据各样本事件类型与论元角色之间的关系，构建三元组关联关系，所述三元组关联关系用于表征各词语所属的样本事件类型、扮演的论元角色、与其关联词语的论元角色；获取标注语料中的事件记录信息，并根据各事件记录信息中的词语和所述三元组关联关系，构建样本双向事件完全图，所述样本双向事件完全图用于表征各事件记录中词语之间的关联；分别构建所述标注语料中各样本文档的邻接矩阵，并根据所述样本双向事件完全图对各邻接矩阵进行标识填充，得到样本邻接矩阵；根据各样本邻接矩阵和各样本文档，对事件联合抽取模型进行训练，直至所述事件联合抽取模型收敛；将待抽取文档输入收敛后的所述事件联合抽取模型进行事件抽取，得到事件信息。2.如权利要求1所述的基于双向事件完全图的文档级事件联合抽取方法，其特征在于，所述根据各样本事件类型与论元角色之间的关系，构建三元组关联关系，包括：分别获取各样本事件类型的论元角色集合，并将所述论元角色集合中的不同论元角色进行组合，得到论元角色对；针对各样本事件类型，分别与对应的各论元角色对进行组合，得到所述三元组关联关系，并对所述三元组关联关系进行标识编号。3.如权利要求2所述的基于双向事件完全图的文档级事件联合抽取方法，其特征在于，所述根据各事件记录信息中的词语和所述三元组关联关系，构建样本双向事件完全图，包括：分别获取各事件记录信息的事件类型，并分别将各事件记录信息中的事件词语进行组合，得到词语对；分别获取各词语对的论元角色，并针对各事件记录信息，将对应的所述事件类型和各词语对的论元角色进行边类型组合，得到所述样本双向事件完全图；根据所述三元组关联关系中标识对所述样本双向事件完全图进行编号。4.如权利要求3所述的基于双向事件完全图的文档级事件联合抽取方法，其特征在于，所述分别构建所述标注语料中各样本文档的邻接矩阵，并根据所述样本双向事件完全图对各邻接矩阵进行标识填充，得到样本邻接矩阵，包括：分别获取各样本文档的词语数，并根据所述词语数建立所述邻接矩阵；分别查询所述样本双向事件完全图中各词语对在所述邻接矩阵中的填充位置；根据所述样本双向事件完全图中各词语对携带的编号对相对应的所述填充位置进行标识填充，得到所述样本邻接矩阵。5.如权利要求1所述的基于双向事件完全图的文档级事件联合抽取方法，其特征在于，所述根据各样本邻接矩阵和各样本文档，对事件联合抽取模型进行训练，包括：根据所述事件联合抽取模型中的编码层对各样本文档中的文档词语进行向量初始化，并获取捕获各文档词语之间的位置信息，得到特征编码信息；根据所述事件联合抽取模型中的分类层对各特征编码信息进行事件分类预测，得到预测邻接矩阵，并根据所述预测邻接矩阵和所述样本邻接矩阵确定模型损失；
根据所述模型损失对所述编码层和所述分类层进行参数更新，直至所述编码层和所述分类层收敛，得到收敛后的所述事件联合抽取模型。6.如权利要求1所述的基于双向事件完全图的文档级事件联合抽取方法，其特征在于，所述将...

【专利技术属性】
技术研发人员：万齐智，万常选，胡蓉，刘德喜，刘喜平，
申请(专利权)人：江西财经大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人