一种基于图知识和主题感知的抽象文本摘要方法技术

技术编号:32793581 阅读:29 留言:0更新日期:2022-03-23 19:55
本发明专利技术公开了一种基于图知识和主题感知的抽象文本摘要方法。本发明专利技术提出了一种基于BERT、神经主题模型和图神经网络的模型,被称为GTASum。在文档编码器输入端,使用BERT获得文档的隐藏词向量;在主题编码器输入端,使用神经主题模型获得文档的单词

【技术实现步骤摘要】
一种基于图知识和主题感知的抽象文本摘要方法


[0001]本专利技术属于自然语言处理
,设计文本摘要生成方法,具体是一种基于图知识和主题感知的抽象文本摘要方法,一种基于预训练语言模型、神经主题模型和图神经网络的文本摘要生成方法。

技术介绍

[0002]随着计算机性能与大规模语言模型的发展,自然语言处理任务(NLP)取得了重大的发展。摘要任务作为自然语言处理任务的核心问题之一,旨在让人们快速掌握文本中的重要信息。文本摘要已经被广泛应用于多个领域,如新闻、金融、会议和医疗等。目前,摘要任务主要有两种方法:抽取式方法和抽象式方法。抽取式方法主要从原文中复制重要信息,然后将它们聚合成文本。这种方法产生的摘要通常会保留源文本的显著信息,有着正确的语法,但不可避免的是容易产生大量冗余信息。抽象式方法是根据对源文本输入的理解来形成摘要。它试图去理解文本内容,可以生成原文中没有的单词,更加接近摘要本质,具有生成高质量摘要的潜力。综上,为了更好地生成新闻摘要,帮读者快速高效地掌握每日讯息,本研究侧重于抽象的摘要。
[0003]在抽象摘要中,序列到序列已经成为多种架构的主导框架。在早期,抽取式文本摘要主要是基于RNN的编

解码器。由于“长距离依赖”问题,RNN到最后一个时间步输入单词时,已经丢失了大量信息,因此Bahdanau等人将Attention机制应用于NLP中。此后,文本摘要进入大发展,各种应用层出不穷。其中,最令人瞩目的当属Transformer架构。该模型在诸多领域取得了惊人的表现。目前的SOTA抽象模型,包括BART、PEGASUS和ProphetNet等都采用基于Transformer的体系结构。并且,在注意力机制的贡献下,基于Transformer的模型可以很好地捕获token之间的语法和上下文信息。然而,更高层次的语义理解却表现不佳。
[0004]为了解决这个问题,研究人员尝试了多种改进手段,其中一种方式就是利用主题感知的方式。主题模型,比如LDA、PFA、NVDM、NTM都能为文档理解提供额外的信息。对于文本摘要,我们通过将主题模型特性合并到摘要模型中,我们相信它能够提高模型性能。此外,近年来,图神经网络(GNNs)被广泛应用于摘要任务的跨句关系建模。一些研究建立了基于语篇分析的文档图。然而,这种方式依赖外部工具,可能导致语义上的碎片化输出。Wang和Liu等人构建了词句文档图,但这种方式很难捕获到语义级关系,因此,如何有效地将文档构建为可摘要的图也是个难题。

技术实现思路

[0005]本专利技术的目的是针对现有技术的不足,提供一种基于图知识和主题感知的抽象文本摘要方法。
[0006]本专利技术解决其技术问题所采用的技术方案包括以下步骤:
[0007]步骤(1):给定原始输入文档D,对原始输入文档D中每个句子的开头和结尾分别插入[CLS]和[SEP],然后将处理后的输入文档D放入预训练语言模型BERT,学习句子的特征表
示H
B

[0008]步骤(2):将原始输入文档D输入到神经主题模型NTM,学习文档的主题表示H
T

[0009]步骤(3):将句子的特征表示H
B
和文档的主题表示H
T
输入到图注意网络GAT中,并进行初始化;经过图注意网络GAT编码后,生成带有主题信息的句子特征h';GAT编码过程是构建一个带有主题和句子的异构文档图,同时不断更新特征表示H
B
和主题表示H
T
所构成的节点表示;
[0010]步骤(4):将带有主题信息的句子特征h'送入基于Transformer的解码器进行解码;并经过归一化后生成文本摘要;
[0011]步骤(5):将GTASum模型在CNN/DailyMail数据集和XSum数据集上进行训练,挑选出最优的GTASum模型,将任意文本输入训练好的GTASum模型,输出对应的摘要内容;
[0012]所述GTASum模型由预训练语言模型BERT、神经主题模型NTM、图注意网络GAT和解码器共同组成。
[0013]本专利技术有益效果如下:
[0014]本专利技术提出主题模型和图神经网络能帮助预训练语言模型更好地说话。在训练时,将文档主题信息和文档嵌入信息送入图神经网络进行融合和更新。通过这种操作,使得预训练语言模型面对下游任务时,能更好地参考主题信息进行特征选择。结果表明,这种方式具有更好地鲁棒性和自适应能力。根据文本摘要领域标准性能指标进行测试,评价指标包括ROUGE_1/ROUGE_2/ROUGE_L。在新闻文本摘要数据集CNN/DailyMail和XSum上进行测试,并得到在领域内领先水平的结果。
附图说明
[0015]图1是本模型整体流程框架;
[0016]图2是神经主题模型部分框架;
[0017]图3是本模型使用示例;
具体实施方式
[0018]下面结合附图和实施例对本专利技术作进一步说明。
[0019]本专利技术提出了一种基于图知识和主题感知的抽象文本摘要方法。首先,我们用预训练语言模型BERT对输入文档进行编码,以学习上下文句子表示,同时使用神经主题模型(NTM)发现潜在主题。然后,我们构建了一个由句子和主题节点组成的异构文档图,并同时使用改进的图注意网络(GAT)对其进行更新表示。第三,获取句子节点的表现形式,计算潜在语义。最后,将潜在语义送入基于Transformer的解码器进行解码,以生成最终结果。我们在两个真实世界的数据集CNN/DailyMail和XSum上进行了广泛的实验。
[0020]本专利技术提出的一种基于BERT、神经主题模型和图神经网络的模型,被称为GTASum。在文档编码器输入端,使用BERT获得文档的隐藏词向量;在主题编码器输入端,使用神经主题模型获得文档的单词

主题分布向量;将两个向量输入到图神经网络中进行训练,得到融合了主题知识的上下文内容,并用基于Transformer的解码器生成文本;同时,本专利技术提出的条件归一化的LN层能协同训练神经主题模型和解码器,有效地进行特征选择。结果表示我们的模型能很好地捕获抽象文本摘要的关键信息,具有更好地鲁棒性和自适应能力。
[0021]如图1和2所示,一种基于图知识和主题感知的抽象文本摘要方法,包括以下步骤:
[0022]步骤(1):给定原始输入文档D,对原始输入文档D中每个句子的开头和结尾分别插入[CLS]和[SEP],然后将处理后的输入文档D放入预训练语言模型BERT,学习句子的特征表示H
B

[0023]步骤(2):将原始输入文档D输入到神经主题模型NTM,学习文档的主题表示H
T

[0024]步骤(3):将句子的特征表示H
B
和文档的主题表示H
T
输入到图注意网络GAT中,并进行初始化;经过图注意网络GAT编码后,生成带有主题信息的句子本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图知识和主题感知的抽象文本摘要方法,其特征在于包括以下步骤:步骤(1):给定原始输入文档D,对原始输入文档D中每个句子的开头和结尾分别插入[CLS]和[SEP],然后将处理后的输入文档D放入预训练语言模型BERT,学习句子的特征表示H
B
;步骤(2):将原始输入文档D输入到神经主题模型NTM,学习文档的主题表示H
T
;步骤(3):将句子的特征表示H
B
和文档的主题表示H
T
输入到图注意网络GAT中,并进行初始化;经过图注意网络GAT编码后,生成带有主题信息的句子特征h';GAT编码过程是构建一个带有主题和句子的异构文档图,同时不断更新特征表示H
B
和主题表示H
T
所构成的节点表示;步骤(4):将带有主题信息的句子特征h'送入基于Transformer的解码器进行解码;并经过归一化后生成文本摘要;步骤(5):将GTASum模型在CNN/DailyMail数据集和XSum数据集上进行训练,挑选出最优的GTASum模型,将任意文本输入训练好的GTASum模型,输出对应的摘要内容;所述GTASum模型由预训练语言模型BERT、神经主题模型NTM、图注意网络GAT和解码器共同组成。2.根据权利要求1所述的一种基于图知识和主题感知的抽象文本摘要方法,其特征在于所述步骤(1)具体实现过程如下:1

1对原始输入文档D中每个句子的开头和结尾分别插入特殊标记<CLS>和<SEP>,句子集合W={w1,w2,

,w
n
};其中,w
i
表示第i个句子;[CLS]放在每个句子开头,[SEP]放在每个句子末尾;1

2将句子集合W放入预训练好的语言模型BERT,如公式1所示,生成序列的隐藏状态表示H
B
,并将隐藏状态表示H
B
视为相应句子的特征表示:H
B
={h1,h2,...,h
i
,...,h
n
}=BERT({w1,w2,...,w
i
,...,w
n
}) (1)。3.根据权利要求2所述的一种基于图知识和主题感知的抽象文本摘要方法,其特征在于所述步骤(2)具体实现过程如下:2

1将原始输入文档D输入到神经主题模型NTM中进行编码;在编码过程中,会生成均值μ=f
μ
(x)和方差logσ=f
σ
(x);其中,函数f
μ
和f
σ
都是线性变换函数;2

2解码过程有三步:第一:采用高斯分布来描述主题分布,即z~Ν(μ,σ)和θ=softmax(z);其中,z是潜在的主题变量,θ∈R
K
是z归一化的结果,K是主题维度;第二:通过p
w
=softmax(W
φ
θ)来学习预测词p
w
∈R
V
的出现概率;其中,W
φ
∈R
V
×
K
是类似LDA主题模型中的主题

单词分布矩阵;第三:从预测词p
w
中提取每个单词来构造词袋x
box
;2

3取出神经主题模型中间参数W
φ
,用公式2来构建主题表示H
T
;其中,是一组具有预定义维度是d
t
的主题表示,f
φ

【专利技术属性】
技术研发人员:姜明邹一凡张旻
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1