本发明专利技术公开一种基于自关联指针生成网络的文本提取方法、装置及介质,涉及文本数据处理领域。该方法包括:对文本数据进行预处理得到文本序列,构建文本提取模型,文本提取模型包括自关联指针生成网络和判别器,自关联指针生成网络响应于输入的文本序列,生成离散序列并馈送至判别器;判别器响应于输入的离散序列,得到每个离散序列的评分分数,并以评分分数最高的离散序列作为最终的生成序列;在自关联指针生成网络中加入空间约束,在判别器中加入信息量约束;构建文本数据集,利用文本数据集对所述文本提取模型进行训练,并通过训练得到的文本提取模型实现文本提取,本发明专利技术能够精准地实现对文本数据的核心内容提取,得到精简且准确的数据信息。
【技术实现步骤摘要】
本专利技术涉及文本数据处理,更具体地,涉及一种基于自关联指针生成网络的文本提取方法、装置及介质。
技术介绍
1、随着互联网飞速发展,产生了越来越多的文本数据,文本信息过载问题日益严重,对各类文本进行一个“降维”处理显得非常必要,文本摘要便是其中一个重要的手段。文本摘要旨在将文本或文本集合转换为包含关键信息的简短摘要。按照输出类型可分为抽取式摘要和生成式摘要。抽取式摘要从源文档中抽取关键句和关键词组成摘要,摘要全部来源于原文。生成式摘要根据原文,允许生成新的词语、原文本中没有的短语来组成摘要。
2、现有的指针生成网络在提取文本数据时,主要是通过源文本数据的上下文语义来生成新的文本序列,然而这种方式仅仅只是对源文本数据进行约束,并没有在生成新的文本序列时,考虑新生成的词语的约束,而新生成的词语在某种意义上对所形成的文本序列的准确性起到很重要的影响。因此,如何在文本提取过程中奖新生成的词语考虑进去以提升文本提取的准确性是本专利技术要解决的技术问题。
技术实现思路
1、为解决上述技术问题,本专利技术提供一种基于自关联指针生成网络的文本提取方法、装置及介质,以提升文本提取的准确性。
2、第一方面,本专利技术提供一种基于自关联指针生成网络的文本提取方法,所述方法包括:
3、获取文本数据;
4、基于所述文本数据,进行关系提取,提取出句子的三元组;基于所述三元组计算所述文本数据中所有单词的注意力权重;基于所述注意力权重对单词进行筛选,得到文本序列;</p>5、构建文本提取模型,所述文本提取模型包括自关联指针生成网络和判别器,所述自关联指针生成网络响应于输入的文本序列,生成离散序列并馈送至所述判别器;所述判别器响应于输入的离散序列,得到每个离散序列的评分分数,并以评分分数最高的离散序列作为最终的生成序列;在所述自关联指针生成网络中加入空间约束,所述空间约束允许所述自关联指针生成网络生成所述文本序列不存在的单词,在所述判别器中信息量约束,用于约束所述判别器输出的生成序列的信息量;
6、构建文本数据集,利用所述文本数据集对所述文本提取模型进行训练,并通过训练得到的文本提取模型实现文本提取。
7、进一步地,基于所述三元组,通过如下公式计算所述文本数据中所有单词的注意力权重:
8、
9、式中,eij表示文本数据中第i个单词和三元组中第j个单词之间的注意力值,t表示矩阵转置运算,leakyrelu表示激活函数,表示映射向量,w表示投影矩阵,和分别表示文本数据中第i个单词和三元组中第j个单词之间的词向量,aij表示文本数据中第i个单词和三元组中第j个单词之间的注意力权重,exp表示经验函数,文本数据中第i个单词和三元组中第j个单词组成词对,k表示词对数量,k表示词对序号。
10、进一步地,基于所述注意力权重对单词进行筛选,得到文本序列,包括:
11、设定第一阈值和第二阈值;其中,所述第一阈值大于第二阈值;
12、若所述注意力权重大于所述第一阈值,则保留所述注意力权重所对应词对的文本数据中的单词;
13、若所述注意力权重小于等于所述第一阈值但大于所述第二阈值,则基于预设词表,按照设定比例对小于等于所述第一阈值但大于所述第二阈值的注意力权重所对应的文本数据中的单词进行部分替换,未替换的单词直接删除;
14、若所述注意力权重小于等于所述第二阈值,则直接删除所述注意力权重所对应词对的文本数据中的单词;
15、将文本数据中保留和替换的单词进行组合,得到文本序列。
16、进一步地,所述自关联指针生成网络包括编码器和解码器,所述自关联指针生成网络响应于输入的文本序列,通过如下公式生成离散序列并馈送至所述判别器,包括:
17、基于所述编码器和解码器,通过如下公式计算概率:
18、
19、pv=softmax(v'(v[st,h'i])+b2)+b'2
20、
21、p=pgpv+(1-pg)
22、式中,h'i表示编码器的输出,hi表示编码器的隐藏状态,st表示解码器的状态,b1表示偏置参数,wh和ws分别表示编码器和解码器的权重矩阵,pv表示序列从词汇表中生成单词的概率,pg表示词汇表中所有单词的概率分布,p表示当前生成序列的概率;v'、v、b2、b'2、b3、ωh、ωs、ωt均表示可学习的参数
23、根据计算得到的当前生成序列的概率来选择最优的序列,生成离散序列并馈送至所述判别器。
24、进一步地,所述判别器包括标签提取模块以及评分模块,所述标签提取模块用于提取所述离散序列中的前m个单词作为标签,所述评分模块基于所述标签生成对应离散序列的分数。
25、进一步地,所述空间约束表示为:
26、
27、式中,s空表示离散序列的空间得分,yi和yj均表示离散序列中在文本序列中存在的单词向量,xn和xm均表示离散序列中在文本序列中不存在的单词向量;i、j表示离散序列中在文本序列中存在的单词向量的序号,m1表示离散序列中在文本序列中存在的单词向量的总数,m、n表示离散序列中在文本序列中存在的单词向量的序号,m2表示离散序列中在文本序列中存在的单词向量的总数。
28、进一步地,所述信息量约束表示为:
29、
30、式中,s表示信息量约束,m表示输入的离散序列的数量,i1表示输入的离散序列及其对应的文本数据的序号,yi1表示离散序列,xi1表示离散序列对应的文本数据,n表示文本数据的数量,l表示期望生成的序列长度,c1和c2表示超参数。
31、第二方面,本专利技术提供一种基于自关联指针生成网络的文本提取装置,所述装置包括:
32、数据获取单元,被配置为获取文本数据;
33、序列提取单元,被配置为基于所述文本数据,进行关系提取,提取出句子的三元组;基于所述三元组计算所述文本数据中所有单词的注意力权重;基于所述注意力权重对单词进行筛选,得到文本序列;
34、模型构建单元,被配置为构建文本提取模型,所述文本提取模型包括自关联指针生成网络和判别器,所述自关联指针生成网络响应于输入的文本序列,生成离散序列并馈送至所述判别器;所述判别器响应于输入的离散序列,得到每个离散序列的评分分数,并以评分分数的离散序列作为最终的生成序列;在所述自关联指针生成网络中加入空间约束,所述空间约束允许所述自关联指针生成网络生成所述文本序列不存在的单词,在所述判别器中信息量约束,用于约束所述判别器输出的生成序列的信息量;
35、模型训练单元,构建文本数据集,利用所述文本数据集对所述文本提取模型进行训练,并通过训练得到的文本提取模型实现文本提取。
36、进一步地,所述模型构建单元被进一步配置为:
37、设定第一阈值和第二阈值;其中,所述第一阈值大于第二阈值;
38、若所述注意力权本文档来自技高网
...
【技术保护点】
1.一种基于自关联指针生成网络的文本提取方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,基于所述三元组,通过如下公式计算所述文本数据中所有单词的注意力权重:
3.根据权利要求2所述的方法,其特征在于,基于所述注意力权重对单词进行筛选,得到文本序列,包括:
4.根据权利要求1所述的方法,其特征在于,所述自关联指针生成网络包括编码器和解码器,所述自关联指针生成网络响应于输入的文本序列,通过如下公式生成离散序列并馈送至所述判别器,包括:
5.根据权利要求1所述的方法,其特征在于,所述判别器包括标签提取模块以及评分模块,所述标签提取模块用于提取所述离散序列中的前m个单词作为标签,所述评分模块基于所述标签生成对应离散序列的分数。
6.根据权利要求1所述的方法,其特征在于,所述空间约束表示为:
7.根据权利要求1所述的方法,其特征在于,所述信息量约束表示为:
8.一种基于自关联指针生成网络的文本提取装置,其特征在于,所述装置包括:
9.根据权利要求8所述的装置,其特征在于,所述模型构建单元被进一步配置为:
10.一种存储有指令的非暂时性计算机可读存储介质,当所述指令由处理器执行时,执行根据权利要求1至6中任一项所述的方法。
...
【技术特征摘要】
1.一种基于自关联指针生成网络的文本提取方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,基于所述三元组,通过如下公式计算所述文本数据中所有单词的注意力权重:
3.根据权利要求2所述的方法,其特征在于,基于所述注意力权重对单词进行筛选,得到文本序列,包括:
4.根据权利要求1所述的方法,其特征在于,所述自关联指针生成网络包括编码器和解码器,所述自关联指针生成网络响应于输入的文本序列,通过如下公式生成离散序列并馈送至所述判别器,包括:
5.根据权利要求1所述的方法,其特征在于,所述判别器包括标签提取模块以...
【专利技术属性】
技术研发人员:赵晓凡,陈丽,杨明,
申请(专利权)人:中国人民公安大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。