篇章级事件抽取方法、系统和设备技术方案

技术编号:32647173 阅读:30 留言:0更新日期:2022-03-12 18:31
本发明专利技术属于文本数据识别领域,具体涉及了一种篇章级事件抽取方法、系统和设备,旨在解决现有的文本数据事件抽取方法,无法从篇章的层面考虑对事件的抽取,没有提供事件描述跨句跨段的应对方法的问题。本发明专利技术包括通过神经网络特征提取器选出主题句;并通过神经网络分类器获得事件句;进而获得事件句词向量和事件句上下文词向量,并通过指针网络获取事件要素和事件要素位置;获取所有能够完整组成事件的事件要素组合;将同属于一个事件要素组合的事件要素进行特征提取,获得要素

【技术实现步骤摘要】
篇章级事件抽取方法、系统和设备


[0001]本专利技术属于文本数据识别领域,具体涉及了一种篇章级事件抽取方法、系统和设备。

技术介绍

[0002]随着互联网信息量爆炸式的增长,准确地获取所需信息的需求愈发迫切。事件抽取技术可以通过识别特定类型的事件,并进行相关信息的确定和抽取,得到结构化的事件信息。
[0003]现有的时间提取技术通常有1)模板匹配方法,通过正则表达式等人工设计的规则抽取特定事件,难以适应实际文本中事件表示方式复杂、场景多样的特点,抽取的精度较低。2)句法分析方法,通过解析语句的句法树,分析事件表述的主谓宾等结构,从而提取出事件的施事方、相关方等要素,在缺乏高性能句法分析方案的现实场景中效果受到制约,难以应对复杂句式,同时只能提取特定类型(可作为句法单元)的事件要素。3)基于神经网络分类器的方法,包含事件检测和事件要素抽取两个子任务,通过对候选词分类提取事件触发词,再通过对候选要素词和触发词的组合分类提取事件所包含的要素。实际存在pipeline和joint

model两种执行子任务的形式。该方法在拆解子任务的同时,难以充分利用要素与要素间的关联特征,降低了性能上限。4)基于循环神经网络的序列标注方法,相比于分类法,序列标注方法更充分地捕捉到了事件描述中的上下文特征,展现出更好的效果。但是序列标注方法难以应对多个事件描述混杂在一起,尤其是触发词、事件要素存在重叠的情况,难以正确地区分要素所归属的事件。5)基于seq2seq的生成式方法,通过序列生成的方式依次生成事件类型和事件要素,该方法既能捕捉到事件描述中的上下文特征,也能克服多个事件混杂的情况,但实际使用中模型复杂度高,训练难度大,模型效果极不稳定。
[0004]现有的文本数据事件抽取方法,均无法从篇章的层面考虑对事件的抽取,没有提供事件描述跨句跨段的应对方法,没有考虑事件要素可能存在需要指代消解的情形,没有考虑抽取的事件是否是文章的主题内容。

技术实现思路

[0005]为了解决现有技术中的上述问题,即现有的文本数据事件抽取方法,无法从篇章的层面考虑对事件的抽取,没有提供事件描述跨句跨段的应对方法,没有考虑抽取的事件是否是文章的主题内容的问题,本专利技术提供了一种篇章级事件抽取方法,所述方法包括:
[0006]步骤S100,获取待抽取文本数据;
[0007]步骤S200,基于所述待抽取文本数据,通过神经网络特征提取器获取每个分句对应的句向量;
[0008]步骤S300,将所述句向量按照对应句子的原文顺序排列,并在分段处插入分段标记,在句向量后拼接位置向量,获得拼接向量;
[0009]步骤S400,基于所述拼接向量,通过训练好的神经网络特征提取器提取拼接向量
特征,并通过softmax分类器进行分类,获得主题句和背景句;
[0010]步骤S500,将所述主题句进行逐词向量化,并拼接位置向量获得主题句词向量,将所述主题词向量通过神经网络分类器,获得事件句和非事件句;
[0011]步骤S600,将所述事件句与所在位置的前后预设数量句子或段落进行拼接并逐词向量化再拼接位置向量,获得事件句词向量和事件句上下文词向量,基于所述事件句词向量和事件句上下文词向量,通过指针网络获取事件要素和事件要素位置;
[0012]步骤S700,根据事件定义,获取所有能够完整组成事件的事件要素备选组合;
[0013]步骤S800,将同属于一个事件要素备选组合的事件要素通过第二特征提取器进行特征提取,获得要素

要素特征;
[0014]步骤S900,将所有的所述要素

要素特征进行拼接,获得拼接要素组合,通过神经网络分类器将所述拼接要素组合分类为能构成一个事件的要素组合和不能构成事件的要素组合,所述能构成事件的要素组合即为提取的事件。
[0015]在一些优选的实施方式中,所述步骤S200,包括:
[0016]步骤S210,基于所述待抽取文本数据,根据标点和换行符进行分句分段,获得分句文本数据;
[0017]步骤S220,基于所述分句文本数据,通过神经网络特征提取器,获取每个分句对应的句向量。
[0018]在一些优选的实施方式中,所述所有能够完整组成事件的事件要素组合,具体为:
[0019]假设能够完整组成实践的事件要素需要要素ABC,要素类型a、要素类型b、要素类型c
……
;要素类型a包括a1、a2、a3
……
,要素类型b包括b1、b2、b3
……
,要素类型c包括c1、c2、c3
……

[0020]则能够完整组成事件的事件要素备选组合包括:a1b1c1、a2b1c1、a1b2c1、a1b1c2、a3b1c1、a1b3c1、a1b1c3、a2b2c1
……

[0021]在一些优选的实施方式中,所述步骤S800,具体为:对所有属于一个事件要素组合的事件要素,将其与所在前置文本、所在句文本、要素间文本和后置文本进行向量化操作并拼接,通过神经网络特征提取器获取要素

要素特征。
[0022]在一些优选的实施方式中,所述步骤S800还包括使非事件要素的文本等长的步骤:
[0023]将所述前置文本、所在句文本、要素间文本和后置文本,通过额外的含有padding、pooling或attention中的一种或多种的映射神经网络映射为预设的固定长度的向量。
[0024]在一些优选的实施方式中,所述能构成事件的要素组合具体为:
[0025]设所述能构成事件的要素备选组合为a1b1c1,则需要对应的要素

要素特征为a1b1、a1c1和b1c1。
[0026]在一些优选的实施方式中,进行指代消解的步骤,具体为:
[0027]步骤S1000,搜索所述能构成事件的事件要素组合中的代词,将所述代词依据要素类型通过命名实体识别技术NER在所述文本数据中搜索候选名;
[0028]步骤S1100,将归属于同一个能构成事件的事件要素组合的了代词、候选名和事件要素,进行特征提取,获得候选名

代词特征,将所述候选名

代词特征通过softmax进行分类,获得指代消解的结果;
[0029]步骤S1200,将所述指代消解的结果替换所述能构成事件的要素组合,获得提取的事件。
[0030]本专利技术的另一方面,提出了一种篇章级事件抽取系统,所述系统包括:文本获取模块、句向量提取模块、句向量拼接模块、主题句背景句分类模块、事件句非事件句分类模块、指针网络抽取模块、完整事件要素组合获取模块、要素

要素特征提取模块和提取的事件获取模块;
[0031]所述文本获取模块,配置为获取待抽取文本数据;
[0032]所述句向量提取模块,配置为基于所述待抽取文本数据,通过神经网络特征提取器获取每个分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种篇章级事件抽取方法,其特征在于,所述方法包括:步骤S100,获取待抽取文本数据;步骤S200,基于所述待抽取文本数据,通过神经网络特征提取器获取每个分句对应的句向量;步骤S300,将所述句向量按照对应句子的原文顺序排列,并在分段处插入分段标记,在句向量后拼接位置向量,获得拼接向量;步骤S400,基于所述拼接向量,通过训练好的神经网络特征提取器提取拼接向量特征,并通过softmax分类器进行分类,获得主题句和背景句;步骤S500,将所述主题句进行逐词向量化,并拼接位置向量获得主题句词向量,将所述主题词向量通过神经网络分类器,获得事件句和非事件句;步骤S600,将所述事件句与所在位置的前后预设数量句子或段落进行拼接并逐词向量化再拼接位置向量,获得事件句词向量和事件句上下文词向量,基于所述事件句词向量和事件句上下文词向量,通过指针网络获取事件要素和事件要素位置;步骤S700,根据事件定义,获取所有能够完整组成事件的事件要素备选组合;步骤S800,将同属于一个事件要素备选组合的事件要素通过第二特征提取器进行特征提取,获得要素

要素特征;步骤S900,将所有的所述要素

要素特征进行拼接,获得拼接要素组合,通过神经网络分类器将所述拼接要素组合分类为能构成一个事件的要素组合和不能构成事件的要素组合,所述能构成事件的要素组合即为提取的事件。2.根据权利要求1所述的篇章级事件抽取方法,其特征在于,所述步骤S200,包括:步骤S210,基于所述待抽取文本数据,根据标点和换行符进行分句分段,获得分句文本数据;步骤S220,基于所述分句文本数据,通过神经网络特征提取器,获取每个分句对应的句向量。3.根据权利要求1所述的篇章级事件抽取方法,其特征在于,所述所有能够完整组成事件的事件要素备选组合,具体为:假设能够完整组成实践的事件要素需要要素ABC,要素类型a、要素类型b、要素类型c
……
;要素类型a包括a1、a2、a3
……
,要素类型b包括b1、b2、b3
……
,要素类型c包括c1、c2、c3
……
;则能够完整组成事件的事件要素备选组合包括:a1b1c1、a2b1c1、a1b2c1、a1b1c2、a3b1c1、a1b3c1、a1b1c3、a2b2c1
……
。4.根据权利要求1所述的篇章级事件抽取方法,其特征在于,所述步骤S800,具体为:对所有属于一个事件要素组合的事件要素,将其与所在前置文本、所在句文本、要素间文本和后置文本进行向量化操作并拼接,通过神经网络特征提取器获取要素

要素特征。5.根据权利要求4所述的篇章级事件抽取方法,其特征在于,所述步骤S800还包括使非事件要素的文本等长的步骤:将所述前置文本、所在句文本、要素间文本和后置文本,通过额外的含有padding、pooling或attention中的一种或多种的映射神经网络映射为预设的固定长度的向量,进而进行拼接。
6.根据权利要求3所述的篇章级事件抽取方法,其特征在于,所述能构成事件的要素备选组合具体为:设...

【专利技术属性】
技术研发人员:郎凯胡殿明刘雨亮利秀明于鑫
申请(专利权)人:北京感易智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1