System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及人工智能应用领域,具体涉及一种基于递进式信息融合的政务事件抽取方法。
技术介绍
1、互联网信息化和智能化是当今时代的重要特征,它们在医疗、金融、政务等领域不断推进,为人们带来了便捷和智能。然而,随着互联网的持续快速增长,各领域产生了海量的信息,包括图片、视频、音频和文字等多种信息载体。这些信息不仅增长速度急剧上升,而且复杂度也不断提高。面对这样的情况,人们往往感到无所适从,难以快速查找和锁定目标结果。因此,人工智能技术作为信息处理的重要工具,在这样的时代背景下成为了研究的重点,并在近几年取得了巨大的成就,在各个领域逐步推进信息化和智能化的发展。
2、现有技术中对于网络平台数据的解析主要针对于文本数据,随着自然语言处理技术的普及,利用深度学习神经网络模型实现了文本数据的事件抽取解析过程,但现有网络模型的解析精度还有待提高。
技术实现思路
1、为了克服现有技术中在文本的事件抽取解析过程中还存在着解析精度低的不足,为了提高当前处理政务文本数据事件抽取问题的精度,本专利技术提出了一种基于递进式信息融合的政务事件抽取方法,先对文本数据进行事件类型分类,再结合事件类型进行触发词抽取,再结合触发词进行针对特定论元角色的论元抽取,从而完成事件抽取任务。
2、本专利技术解决其技术问题所采用的技术方案是:
3、一种基于递进式信息融合的政务事件抽取方法,包括以下步骤:
4、1)获取某个问政平台在数据库中的社情民意描述文本,预先设定好需要标注的
5、2)根据上述的标注方案,在web端的标注平台上人工标注出文本中的结构化事件,并对应每个文本句子生成确定格式的结构化事件作为训练数据和验证数据;
6、3)首先对文本数据进行事件类别识别;
7、4)完成了事件类型分类后,接下来进行对应特定事件类型的触发词的抽取;
8、5)根据事件类型识别和触发词抽取的结果,将触发词信息融入文本句子中,并根据特定的论元角色进行论元抽取。
9、进一步,所述步骤3)的过程如下:
10、3.1)给定token化的文本句子x=[x1,…,xn],其中xt为在文本句子x中的位置t的token,将x输入bert模型后,得到文本的隐藏表示h=[h1,…,hn],该过程表示为:
11、h=bert(x)
12、3.2)随机初始化多个参数可训练的事件类型向量,每个事件类型向量唯一的代表一个事件类型,表示为c∈c,其中c为一个事件类型向量,c为事件类型向量的集合。
13、3.3)计算事件类型向量c和文本h中的每一个token的代表向量hi的相似度δ,该过程表示为:
14、δ(c,hi)=vttanh(w[c;hi;|c-hi|;c⊙hi])
15、其中v和w为可训练的权重矩阵,tanh为激活函数,⊙表示对应元素相乘的hadamard乘积,[·;·]表示向量或矩阵的拼接操作。
16、3.4)根据相似度δ和文本句子h生成代表该文本句子的句子向量sc,该过程表示为:
17、
18、3.5)将句子样本h和事件向量c进行拼接,并将拼接后的句子输入自注意力层,得到文本句子的向量表示y=[y1,…,yn,c′],该过程表示为:
19、y=selfattention((h;c))
20、3.6)取出文本句子y的首尾向量,其中句首向量为ycls,句尾向量为融合了句子信息的事件类型向量c′;
21、3.7)将sc、ycls、c′送入事件类型预测器进行事件类型的判断,一个文本句子可能包含多个事件,文本句子包含的事件合集为cx该过程表示为:
22、
23、p(c|x)为文本句子的事件类型是c所代表的事件类型的概率,若概率大于某一阈值,则判定文本句子x包含c所代表的事件类型,则c∈cx。σ为sigmoid激活函数,vc和wc为参数可训练的权重矩阵。
24、所述步骤4)的过程如下:
25、4.1)将事件类型向量和文本句子的向量表示进行融合,该过程表示为:
26、
27、
28、其中cln为条件层归一化公式;
29、4.2)融合后得到的两个句子表示分别为和其中m为将事件类型向量c直接融合进文本句子h得到的,n是将与文本句子进行信息交换后的事件类型向量c′融合进文本句子y得到的;
30、4.3)将两个句子表示m和n融合后送入自注意力层进行信息融合得到句子z=[z1,…,zn],该过程表示为:
31、z=selfattention((wt[m;n]))
32、其中wt为参数可训练的权重矩阵;
33、4.4)对文本句子中的每一个token,要计算它属于一个触发词的头和尾的概率分别是多少,概率计算过程表示为:
34、
35、
36、其中σ为sigmoid激活函数,wts和wte为参数可训练的权重矩阵,bts和bte为偏置,为该token是触发词头的概率,为该token是触发词尾的概率;
37、4.5)选取和大于一定阈值的token作为候选头尾位置,列举所有的头位置,并匹配所有在这个头位置之后的尾位置,一个头位置和多个尾位置可以匹配出多个不同长度的候选触发词,再通过限定触发词长度的方式对所有的候选触发词进行筛选,最后得到文本句子x对应特定事件类型向量c的触发词tc,x。
38、所述步骤5)的过程如下:
39、5.1)对于文本句子x的事件类型c∈cx,将触发词t∈tc,x融合进句子表示m和n,该过程表示为:
40、
41、
42、其中cln为条件层归一化公式;
43、5.2)融合后得到的两个句子表示分别为和将两个句子表示e和f融合后送入自注意力层进行信息融合得到句子g=[g1,…,gn],该过程表示为:
44、g=selfattention(wa[e;f])
45、其中wa为参数可训练的权重矩阵;
46、5.3)随机初始化多个参数可训练的向量,每个向量代表一个论元角色,这些向量共同构成了论元角色集合r。rc表示事件类型c所包含的论元角色,rc由r中几个不同的论元角色构成;
47、5.4)根据rc中不同的论元角色,从融合了事件类型信息和触发词信息的g中抽取论元argument;
48、5.5)将论元角色向量r∈rc和文本句子表示g拼接后送入自注意力层进行信息融合,该过程表示为:
49、d=selfattention((g;r))
50、5.6)d=[d1,…,dn,r本文档来自技高网...
【技术保护点】
1.一种基于递进式信息融合的政务事件抽取方法,其特征在于,所述方法包括以下步骤:
2.如权利要求1所述的一种基于递进式信息融合的政务事件抽取方法,其特征在于,所述步骤3)的过程如下:
3.如权利要求1或2所述的一种基于递进式信息融合的政务事件抽取方法,其特征在于,所述步骤4)的过程如下:
4.如权利要求1或2所述的一种基于递进式信息融合的政务事件抽取方法,其特征在于,所述步骤5)的过程如下:
【技术特征摘要】
1.一种基于递进式信息融合的政务事件抽取方法,其特征在于,所述方法包括以下步骤:
2.如权利要求1所述的一种基于递进式信息融合的政务事件抽取方法,其特征在于,所述步骤3)的过程如下:
3.如权...
【专利技术属性】
技术研发人员:李永强,汤家睿,冯远静,邵永国,朱龙飞,李劲业,徐佳怡,王卓,王逸辰,徐经宇,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。