一种基于图知识和主题感知的抽象文本摘要方法技术

技术编号：32793581 阅读：29 留言：0更新日期：2022-03-23 19:55

本发明专利技术公开了一种基于图知识和主题感知的抽象文本摘要方法。本发明专利技术提出了一种基于BERT、神经主题模型和图神经网络的模型，被称为GTASum。在文档编码器输入端，使用BERT获得文档的隐藏词向量；在主题编码器输入端，使用神经主题模型获得文档的单词

全部详细技术资料下载

【技术实现步骤摘要】
一种基于图知识和主题感知的抽象文本摘要方法

[0001]本专利技术属于自然语言处理
，设计文本摘要生成方法，具体是一种基于图知识和主题感知的抽象文本摘要方法，一种基于预训练语言模型、神经主题模型和图神经网络的文本摘要生成方法。

技术介绍

[0002]随着计算机性能与大规模语言模型的发展，自然语言处理任务(NLP)取得了重大的发展。摘要任务作为自然语言处理任务的核心问题之一，旨在让人们快速掌握文本中的重要信息。文本摘要已经被广泛应用于多个领域，如新闻、金融、会议和医疗等。目前，摘要任务主要有两种方法：抽取式方法和抽象式方法。抽取式方法主要从原文中复制重要信息，然后将它们聚合成文本。这种方法产生的摘要通常会保留源文本的显著信息，有着正确的语法，但不可避免的是容易产生大量冗余信息。抽象式方法是根据对源文本输入的理解来形成摘要。它试图去理解文本内容，可以生成原文中没有的单词，更加接近摘要本质，具有生成高质量摘要的潜力。综上，为了更好地生成新闻摘要，帮读者快速高效地掌握每日讯息，本研究侧重于抽象的摘要。
[0003]在抽象摘要中，序列到序列已经成为多种架构的主导框架。在早期，抽取式文本摘要主要是基于RNN的编
‑
解码器。由于“长距离依赖”问题，RNN到最后一个时间步输入单词时，已经丢失了大量信息，因此Bahdanau等人将Attention机制应用于NLP中。此后，文本摘要进入大发展，各种应用层出不穷。其中，最令人瞩目的当属Transformer架构。该模型在诸多领域取得了惊人的表现。目前的SO...

【技术保护点】

【技术特征摘要】
1.一种基于图知识和主题感知的抽象文本摘要方法，其特征在于包括以下步骤：步骤(1)：给定原始输入文档D，对原始输入文档D中每个句子的开头和结尾分别插入[CLS]和[SEP]，然后将处理后的输入文档D放入预训练语言模型BERT，学习句子的特征表示H
B
；步骤(2)：将原始输入文档D输入到神经主题模型NTM，学习文档的主题表示H
T
；步骤(3)：将句子的特征表示H
B
和文档的主题表示H
T
输入到图注意网络GAT中，并进行初始化；经过图注意网络GAT编码后，生成带有主题信息的句子特征h'；GAT编码过程是构建一个带有主题和句子的异构文档图，同时不断更新特征表示H
B
和主题表示H
T
所构成的节点表示；步骤(4)：将带有主题信息的句子特征h'送入基于Transformer的解码器进行解码；并经过归一化后生成文本摘要；步骤(5)：将GTASum模型在CNN/DailyMail数据集和XSum数据集上进行训练，挑选出最优的GTASum模型，将任意文本输入训练好的GTASum模型，输出对应的摘要内容；所述GTASum模型由预训练语言模型BERT、神经主题模型NTM、图注意网络GAT和解码器共同组成。2.根据权利要求1所述的一种基于图知识和主题感知的抽象文本摘要方法，其特征在于所述步骤(1)具体实现过程如下：1
‑
1对原始输入文档D中每个句子的开头和结尾分别插入特殊标记<CLS>和<SEP>，句子集合W＝{w1,w2,
…
,w
n
}；其中，w
i
表示第i个句子；[CLS]放在每个句子开头，[SEP]放在每个句子末尾；1
‑
2将句子集合W放入预训练好的语言模型BERT，如公式1所示，生成序列的隐藏状态表示H
B
，并将隐藏状态表示H
B
视为相应句子的特征表示：H
B
＝{h1,h2,...,h
i
,...,h
n
}＝BERT({w1,w2,...,w
i
,...,w
n
}) (1)。3.根据权利要求2所述的一种基于图知识和主题感知的抽象文本摘要方法，其特征在于所述步骤(2)具体实现过程如下：2
‑
1将原始输入文档D输入到神经主题模型NTM中进行编码；在编码过程中，会生成均值μ＝f
μ
(x)和方差logσ＝f
σ
(x)；其中，函数f
μ
和f
σ
都是线性变换函数；2
‑
2解码过程有三步：第一：采用高斯分布来描述主题分布，即z～Ν(μ,σ)和θ＝softmax(z)；其中，z是潜在的主题变量，θ∈R
K
是z归一化的结果，K是主题维度；第二：通过p
w
＝softmax(W
φ
θ)来学习预测词p
w
∈R
V
的出现概率；其中，W
φ
∈R
V
×
K
是类似LDA主题模型中的主题
‑
单词分布矩阵；第三：从预测词p
w
中提取每个单词来构造词袋x
box
；2
‑
3取出神经主题模型中间参数W
φ
，用公式2来构建主题表示H
T
；其中，是一组具有预定义维度是d
t
的主题表示，f
φ

【专利技术属性】
技术研发人员：姜明，邹一凡，张旻，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人