【技术实现步骤摘要】
篇章级事件抽取方法、系统和设备
[0001]本专利技术属于文本数据识别领域,具体涉及了一种篇章级事件抽取方法、系统和设备。
技术介绍
[0002]随着互联网信息量爆炸式的增长,准确地获取所需信息的需求愈发迫切。事件抽取技术可以通过识别特定类型的事件,并进行相关信息的确定和抽取,得到结构化的事件信息。
[0003]现有的时间提取技术通常有1)模板匹配方法,通过正则表达式等人工设计的规则抽取特定事件,难以适应实际文本中事件表示方式复杂、场景多样的特点,抽取的精度较低。2)句法分析方法,通过解析语句的句法树,分析事件表述的主谓宾等结构,从而提取出事件的施事方、相关方等要素,在缺乏高性能句法分析方案的现实场景中效果受到制约,难以应对复杂句式,同时只能提取特定类型(可作为句法单元)的事件要素。3)基于神经网络分类器的方法,包含事件检测和事件要素抽取两个子任务,通过对候选词分类提取事件触发词,再通过对候选要素词和触发词的组合分类提取事件所包含的要素。实际存在pipeline和joint
‑
model两种执行子任务的形式。该方法在拆解子任务的同时,难以充分利用要素与要素间的关联特征,降低了性能上限。4)基于循环神经网络的序列标注方法,相比于分类法,序列标注方法更充分地捕捉到了事件描述中的上下文特征,展现出更好的效果。但是序列标注方法难以应对多个事件描述混杂在一起,尤其是触发词、事件要素存在重叠的情况,难以正确地区分要素所归属的事件。5)基于seq2seq的生成式方法,通过序列生成的方式依次生成事件类型和事 ...
【技术保护点】
【技术特征摘要】
1.一种篇章级事件抽取方法,其特征在于,所述方法包括:步骤S100,获取待抽取文本数据;步骤S200,基于所述待抽取文本数据,通过神经网络特征提取器获取每个分句对应的句向量;步骤S300,将所述句向量按照对应句子的原文顺序排列,并在分段处插入分段标记,在句向量后拼接位置向量,获得拼接向量;步骤S400,基于所述拼接向量,通过训练好的神经网络特征提取器提取拼接向量特征,并通过softmax分类器进行分类,获得主题句和背景句;步骤S500,将所述主题句进行逐词向量化,并拼接位置向量获得主题句词向量,将所述主题词向量通过神经网络分类器,获得事件句和非事件句;步骤S600,将所述事件句与所在位置的前后预设数量句子或段落进行拼接并逐词向量化再拼接位置向量,获得事件句词向量和事件句上下文词向量,基于所述事件句词向量和事件句上下文词向量,通过指针网络获取事件要素和事件要素位置;步骤S700,根据事件定义,获取所有能够完整组成事件的事件要素备选组合;步骤S800,将同属于一个事件要素备选组合的事件要素通过第二特征提取器进行特征提取,获得要素
‑
要素特征;步骤S900,将所有的所述要素
‑
要素特征进行拼接,获得拼接要素组合,通过神经网络分类器将所述拼接要素组合分类为能构成一个事件的要素组合和不能构成事件的要素组合,所述能构成事件的要素组合即为提取的事件。2.根据权利要求1所述的篇章级事件抽取方法,其特征在于,所述步骤S200,包括:步骤S210,基于所述待抽取文本数据,根据标点和换行符进行分句分段,获得分句文本数据;步骤S220,基于所述分句文本数据,通过神经网络特征提取器,获取每个分句对应的句向量。3.根据权利要求1所述的篇章级事件抽取方法,其特征在于,所述所有能够完整组成事件的事件要素备选组合,具体为:假设能够完整组成实践的事件要素需要要素ABC,要素类型a、要素类型b、要素类型c
……
;要素类型a包括a1、a2、a3
……
,要素类型b包括b1、b2、b3
……
,要素类型c包括c1、c2、c3
……
;则能够完整组成事件的事件要素备选组合包括:a1b1c1、a2b1c1、a1b2c1、a1b1c2、a3b1c1、a1b3c1、a1b1c3、a2b2c1
……
。4.根据权利要求1所述的篇章级事件抽取方法,其特征在于,所述步骤S800,具体为:对所有属于一个事件要素组合的事件要素,将其与所在前置文本、所在句文本、要素间文本和后置文本进行向量化操作并拼接,通过神经网络特征提取器获取要素
‑
要素特征。5.根据权利要求4所述的篇章级事件抽取方法,其特征在于,所述步骤S800还包括使非事件要素的文本等长的步骤:将所述前置文本、所在句文本、要素间文本和后置文本,通过额外的含有padding、pooling或attention中的一种或多种的映射神经网络映射为预设的固定长度的向量,进而进行拼接。
6.根据权利要求3所述的篇章级事件抽取方法,其特征在于,所述能构成事件的要素备选组合具体为:设...
【专利技术属性】
技术研发人员:郎凯,胡殿明,刘雨亮,利秀明,于鑫,
申请(专利权)人:北京感易智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。