一种文档级事件抽取的候选论元过滤方法及装置制造方法及图纸

技术编号：41555419 阅读：28 留言：0更新日期：2024-06-06 23:41

本发明专利技术涉及自然语言处理领域，特别是指一种文档级事件抽取的候选论元过滤方法及装置，方法包括：获取待处理的文档；将文档输入到候选论元过滤模型；其中，候选论元过滤模型包括实体识别模块、大模型前导过滤模块、实体表示增强模块、实体异构图构建模块以及结果生成模块；根据文档以及候选论元过滤模型，得到文档的候选论元集合。本发明专利技术的候选论元过滤模型通过两次过滤，实现了端到端的：输入一篇文档，输出这篇文档所包含的全部候选论元集合。并通过两次过滤，过滤了实体表示中的无关噪音，提高了实体邻接矩阵的准确性，并最终提高了事件抽取的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理，特别是指一种文档级事件抽取的候选论元过滤方法及装置。

技术介绍

1、事件抽取任务即从非结构化的文本(如：新闻、公告)中识别出一个事件的关键要素（事件类型、触发词、论元、论元角色），并最终以结构化（表格）的形式呈现出来。事件抽取任务包含句子级事件抽取和文档级事件抽取，文档级事件抽取相比句子级事件抽取难度更高，也是目前研究的主流方向。目前国际上最主流的文档级事件抽取方法主要是先通过预训练语言模型获得文档中对应的实体表示，再向对应的实体表示信息中融合实体相关的上下文信息，从而让获得的实体表示信息更加丰富完整。再根据获得的实体表示通过相似度计算的方式建模实体与实体之间的语义距离（相似度），再根据语义距离的远近构建包含实体与句子的异构图，再通过图卷积网络的学习以及最终的多分类方法，来获得事件抽取所需要的最终结果信息。

2、现有同类技术首先通过lstm（long short-term memory，长短期记忆网络）获得了对应的实体表示信息，再通过实体表示信息聚合与另一个bi-lstm（bidirectional longshort-term memory，双向长短期记忆网络）获得了更加完整的实体表示信息，再根据获得的实体表示信息，通过相似度计算的方式获得了对应的实体与实体之间的相似度邻接矩阵（similarity calculation）,再根据邻接矩阵建立了对应的实体异构图（pruned completegraph），最终获得了对应的事件抽取结果表格。但现有同类技术存在一个严重的问题，即实体相似度邻

3、1.在获得实体表示的过程中，没有融入实体所在的句子信息，导致获得的实体表示信息不完整，从而影响了实体相似度的计算结果，最终导致实体相似度邻接矩阵的预测准确率降低。

4、2.在抽取复杂文档和简单文档的过程中，采用相同的实体表示信息融合策略，导致抽取简单文档时融合了过多的无关信息，引入了很多噪音，从而导致获得的实体表示信息不准确，从而影响了实体相似度的计算结果，最终导致实体相似度邻接矩阵的预测准确率降低。

技术实现思路

1、为了解决现有技术存在的实体相似度邻接矩阵的预测准确率低的技术问题，本专利技术实施例提供了一种文档级事件抽取的候选论元过滤方法及装置。所述技术方案如下：

2、一方面，提供了一种文档级事件抽取的候选论元过滤方法，该方法由候选论元过滤设备实现，该方法包括：

3、s1、获取待处理的文档。

4、s2、将文档输入到候选论元过滤模型。

5、其中，候选论元过滤模型包括实体识别模块、大模型前导过滤模块、实体表示增强模块、实体异构图构建模块以及结果生成模块。

6、s3、根据文档以及候选论元过滤模型，得到文档的候选论元集合。

7、可选地，s3中的根据文档以及候选论元过滤模型，得到文档的候选论元集合，包括：

8、s31、将文档输入到实体识别模块，得到实体表示。

9、s32、将实体表示输入到大模型前导过滤模块，得到文档复杂度分数。

10、s33、将文档复杂度分数输入到实体表示增强模块，得到增强后的实体表示。

11、s34、将增强后的实体表示输入到实体异构图构建模块，得到实体异构图。

12、s35、将实体异构图输入到结果生成模块，得到文档的候选论元集合。

13、可选地，s31中的将文档输入到实体识别模块，得到实体表示，包括：

14、s311、对文档进行预处理以及分词，得到令牌token序列。

15、s312、将令牌token序列输入到来自变压器的双向编码器表示bert模型，得到每个令牌token序列对应的向量空间中的表示。

16、s313、将向量空间中的表示输入到来自变压器的双向编码器表示-条件随机场bert-crf模型，得到令牌token序列中每个实体的实体表示。

17、可选地，s32中的将实体表示输入到大模型前导过滤模块，得到文档复杂度分数，包括：

18、将实体表示输入到大模型前导过滤模块中的训练好的聊天生成预训练转换器chatgpt，得到文档复杂度分数。

19、可选地，s33中的将文档复杂度分数输入到实体表示增强模块，得到增强后的实体表示，包括：

20、将文档复杂度分数输入到实体表示增强模块的门控gate中，并判断文档复杂度分数是否大于或等于预设阈值。

21、若是，则判定文档为复杂文档，门控开启，对实体表示进行增强，得到增强后的实体表示。

22、若否，则判定文档为简单文档，门控关闭，实体表示即为增强后的实体表示。

23、可选地，对实体表示进行增强，得到增强后的实体表示，包括：

24、s331、获取实体表示所属的实体，获取实体所属的句子。

25、s332、对句子中的所有令牌token序列进行最大池化聚合，得到句子的句子表示。

26、s333、将句子表示按照实体表示的维度叠加到实体表示中，得到增强后的实体表示。

27、另一方面，提供了一种文档级事件抽取的候选论元过滤装置，该装置应用于文档级事件抽取的候选论元过滤方法，该装置包括：

28、获取模块，用于获取待处理的文档。

29、输入模块，用于将文档输入到候选论元过滤模型。

30、其中，候选论元过滤模型包括实体识别模块、大模型前导过滤模块、实体表示增强模块、实体异构图构建模块以及结果生成模块。

31、输出模块，用于根据文档以及候选论元过滤模型，得到文档的候选论元集合。

32、可选地，输出模块，进一步用于：

33、s31、将文档输入到实体识别模块，得到实体表示。

34、s32、将实体表示输入到大模型前导过滤模块，得到文档复杂度分数。

35、s33、将文档复杂度分数输入到实体表示增强模块，得到增强后的实体表示。

36、s34、将增强后的实体表示输入到实体异构图构建模块，得到实体异构图。

37、s35、将实体异构图输入到结果生成模块，得到文档的候选论元集合。

38、可选地，输出模块，进一步用于：

39、s311、对文档进行预处理以及分词，得到令牌token序列。

40、s312、将令牌token序列输入到来自变压器的双向编码器表示bert模型，得到每个令牌token序列对应的向量空间中的表示。

41、s313、将向量空间中的表示输入到来自变压器的双向编码器表示-条件随机场bert-crf模型，得到令牌token序列中每个实体的实体表示。

42、可选地，输出模块，进一步用于：

43、将实体表本文档来自技高网...

【技术保护点】

1.一种文档级事件抽取的候选论元过滤方法，其特征在于，所述方法包括：

2.根据权利要求1所述的文档级事件抽取的候选论元过滤方法，其特征在于，所述S3中的根据所述文档以及候选论元过滤模型，得到文档的候选论元集合，包括：

3.根据权利要求2所述的文档级事件抽取的候选论元过滤方法，其特征在于，所述S31中的将所述文档输入到所述实体识别模块，得到实体表示，包括：

4.根据权利要求2所述的文档级事件抽取的候选论元过滤方法，其特征在于，所述S32中的将所述实体表示输入到所述大模型前导过滤模块，得到文档复杂度分数，包括：将所述实体表示输入到大模型前导过滤模块中的训练好的聊天生成预训练转换器ChatGPT，得到文档复杂度分数。

5.根据权利要求2所述的文档级事件抽取的候选论元过滤方法，其特征在于，所述S33中的将所述文档复杂度分数输入到所述实体表示增强模块，得到增强后的实体表示，包括：

6.根据权利要求5所述的文档级事件抽取的候选论元过滤方法，其特征在于，所述对实体表示进行增强，得到增强后的实体表示，包括：

7.一种文档级事

8.根据权利要求7所述的文档级事件抽取的候选论元过滤装置，其特征在于，所述输出模块，用于：

9.一种候选论元过滤设备，其特征在于，所述候选论元过滤设备包括：处理器；

10.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1至6任一项所述的方法。

...

【技术特征摘要】

1.一种文档级事件抽取的候选论元过滤方法，其特征在于，所述方法包括：

2.根据权利要求1所述的文档级事件抽取的候选论元过滤方法，其特征在于，所述s3中的根据所述文档以及候选论元过滤模型，得到文档的候选论元集合，包括：

3.根据权利要求2所述的文档级事件抽取的候选论元过滤方法，其特征在于，所述s31中的将所述文档输入到所述实体识别模块，得到实体表示，包括：

4.根据权利要求2所述的文档级事件抽取的候选论元过滤方法，其特征在于，所述s32中的将所述实体表示输入到所述大模型前导过滤模块，得到文档复杂度分数，包括：将所述实体表示输入到大模型前导过滤模块中的训练好的聊天生成预训练转换器chatgpt，得到文档复杂度分数。

5.根据权利要求2所述的文档级事件抽取的候选论元过滤方法，其特征在于，所述s33中的...

【专利技术属性】
技术研发人员：于东，曹嘉文，刘鹏远，
申请(专利权)人：北京语言大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人