System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种实体表示增强双提示交互的事件论元抽取方法技术_技高网
当前位置: 首页 > 专利查询>天津大学专利>正文

一种实体表示增强双提示交互的事件论元抽取方法技术

技术编号:44969036 阅读:0 留言:0更新日期:2025-04-12 01:42
本发明专利技术公开一种实体表示增强双提示交互的事件论元抽取方法,包括以下步骤:(1)双提示模板创建,包括输入和事件提示模板创建,分别用来提示输入中的实体和论元角色,此外,事件提示模板引入位置标记来区分同一论元角色多次出现;(2)实体表示增强,对于每个实体,先对其进行掩码,通过预训练掩码语言模型得到对应的表示,然后根据该实体在语料库中出现的位置聚合不同的掩码表示作为该实体的增强表示;(3)双提示交互,将输入和事件提示模板分别送入BART的编码器和解码器,实现二者的交互,此外,增强的实体表示自适应地融入BART,进行实体表示的增强;使用论元范围预测为事件模板中每个论元角色预测其对应论元在输入中的开始和结束位置。

【技术实现步骤摘要】

本专利技术涉及自然语言处理中信息抽取,主要涉及事件抽取,具体为一种实体表示增强双提示交互的事件论元抽取方法


技术介绍

1、近年来,随着信息技术的不断发展,互联网的信息量日益膨胀。自动化地从海量信息中准确地提取出用户感兴趣的信息成为一个亟待解决的问题。在这种背景下,面向大数据的信息抽取技术成为一个尤为重要的研究方向。事件抽取作为信息抽取的重要子任务,旨在从大量非结构化文本中抽取用户感兴趣的事件,包括触发事件的词(称为触发词),事件中包含的论元(什么人、什么地方、什么时候,什么事),以及这些论元所扮演的角色(参与者、地点、时间等等)。事件抽取对其他研究有极大的促进作用。例如在信息检索领域中,事件抽取技术能够帮助用户快速得到需要的事件信息,进而提高用户接收信息的效率;在自动文摘领域中,结合事件抽取技术能够更全面的涵盖文章中所发生的事件信息,以得到比较完整的摘要内容。此外,事件抽取技术在实际应用场景中也具有很重要的研究意义,例如从新闻报道中抽取出地震事件的基本情况:时间、地点、震级、遇害情况等,能够帮助人们方便快速地了解到所关注事件的重要信息。

2、事件抽取可以进一步分为两个子任务,事件检测和事件论元抽取。前者旨在从候选文本中识别出触发事件的关键词(通常动词和名词居多),并判断其事件类型;后者则是从已识别的事件中标注事件的论元及其扮演的角色(包括事件发生的时间,地点和人物等信息)。由于事件检测在近几年已经取得了较大的进步,本专利技术主要专注于事件论元抽取。根据输入的不同,事件论元抽取可以分为句子级和文档级事件论元抽取。例如在句子“theessence of the american case for war against saddam hussein”中,给定触发词“war”和其触发的事件类型“conflict.attack”,句子级事件论元抽取需要抽取其中包含的论元“american”和“saddam hussein”,以及它们扮演的角色“attacker”和“target”。对于文档级事件论元抽取来说,论元不仅仅只包含在一个句子中,而是有可能会跨越多个句子。本专利技术同时建模句子级和文档级事件论元抽取,对于文档级事件论元抽取,本专利技术将文档段落中的句子按照顺序拼接成长句子。

3、目前针对事件论元抽取的方法可以粗略的分为3类:1)基于关系抽取:这类方法直接建模触发词和事件论元的关系,进而将事件论元抽取转化为关系抽取任务来提取触发词和事件论元对。这类方法一般包括两步,首先识别候选论元,然后再对其进行分类。然而一个显著问题是存在级联错误。2)基于问答:一些研究将事件论元抽取转化为问答任务,来识别论元的开始和结束边界。然而此方法每次只能完成一个论元的抽取,效率不高。此外,该方法需要针对事件和论元角色设计特定的问题。3)基于生成:也有一些工作将事件论文抽取当成文本生成任务来对待。此外,随着提示学习的流行以及其优异的性能表现,有些方法将事件论元抽取转化为基于事件提示模板的生成任务。然而这些方法忽略了显式建模输入中的实体。根据自动内容抽取(automatic context extraction,ace)评测对于事件论元的定义:一个事件的论元是事件中包含的实体。只对事件设计提示模板,不对输入中的实体进行显式建模,不能很好的实现论元角色和实体的交互。因此,显式建模输入中的实体同样十分重要。


技术实现思路

1、本专利技术的目的是为了克服现有技术中的不足,提供一种实体表示增强双提示交互的事件论元抽取。

2、该方法为显式建模输入中的实体,提出设计合适的输入和事件提示模板来分别提示实体和论元角色,从而使得预训练模型可以更好地实现二者的交互。此外,除了输入提示模板显式提示实体外,该方法提出了一种带有自适应选择机制的实体表示增强方法来增强输入中实体的表示。最后,基于事件提示模板使用论元范围预测来检测论元角色对应的论元在输入中的开始和结束位置。该专利技术还设计了位置标记来解决同一个论元角色多次出现的问题,相比于当前最优的模型在f1值评价指标上具有一定的提升。

3、本专利技术的目的是通过以下技术方案实现的:

4、一种实体表示增强双提示交互的事件论元抽取方法,包括以下步骤:

5、(1)双提示模板创建,包括输入和事件提示模板创建,分别用来提示实体和论元角色;

6、(2)实体表示增强,对于输入中的每个实体,先对其进行掩码,再通过预训练掩码语言模型得到掩码单词的表示,然后根据该实体在语料库中多次出现的位置聚合不同的掩码表示作为该实体的增强表示;

7、(3)双提示交互,将输入和事件提示模板分别作为预训练语言模型bart编码器和解码器的输入,实现实体和论元角色的交互;此外,增强的实体表示自适应地融入bart,进行实体表示的增强;最后,使用论元范围预测为每个论元角色检测其对应论元在输入中的开始和结束位置。

8、进一步的,步骤(1)具体包括:

9、(101)输入提示模板创建

10、本专利技术采用输入提示模板来显式建模输入中的实体,其实现策略为在实体前后插入特殊单词;具体地,给定输入x=[x1,…,xi,…,xn],其中x表示句子或文档,若为文档,则将文档中的句子按顺序拼接成一个长句子,n是输入单词的个数,xi是第i个单词;假定xi为实体,则输入提示模板形式如下:

11、x′=[x1,…,<e>,xi,</e>,…,xn]         (1)

12、其中x′表示输入提示模板,<e>和</e>是用来提示实体的特殊单词;为了更加细粒度的建模,区分不同类型的实体,本专利技术引入实体的标签作为特殊单词;具体来说,假定原始输入为“the essence of the american case for war against saddam hussein”,共包含两个实体“american”和“saddam hussein”,其实体类型分别为“gpe”和“per”,那么最终的输入提示模板为:

13、“the essence of the<gpe>american</gpe>case for<t>war</t>against<per>saddam

14、hussein</per>”

15、其中“<gpe>”和“</gpe>”是用来提示american的实体类型为“gpe”的特殊单词,“<per>”和“</per>”的作用类似,“<t>”和“</t>”是用来提示触发词的特殊单词;

16、(102)事件提示模板创建

17、本专利技术采用事件提示模板来建模论元角色,每个事件都有一个事件提示模板,包含该事件预定义的全部论元角色;同时在事件提示模板中引入额外的位置标记以解决同一个论元角色出现多次的问题;具体地,给本文档来自技高网...

【技术保护点】

1.一种实体表示增强双提示交互的事件论元抽取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述一种实体表示增强双提示交互的事件论元抽取方法,其特征在于,步骤(1)具体包括:

3.根据权利要求1所述一种实体表示增强双提示交互的事件论元抽取方法,其特征在于,步骤(2)具体包括:

4.根据权利要求l所述一种实体表示增强双提示交互的事件论元抽取方法,其特征在于,步骤(3)具体包括:

【技术特征摘要】

1.一种实体表示增强双提示交互的事件论元抽取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述一种实体表示增强双提示交互的事件论元抽取方法,其特征在于,步骤(1)具体包括:

3.根...

【专利技术属性】
技术研发人员:贺瑞芳肖梦南张仕奇白洁
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1