【技术实现步骤摘要】
一种基于图知识和主题感知的抽象文本摘要方法
[0001]本专利技术属于自然语言处理
,设计文本摘要生成方法,具体是一种基于图知识和主题感知的抽象文本摘要方法,一种基于预训练语言模型、神经主题模型和图神经网络的文本摘要生成方法。
技术介绍
[0002]随着计算机性能与大规模语言模型的发展,自然语言处理任务(NLP)取得了重大的发展。摘要任务作为自然语言处理任务的核心问题之一,旨在让人们快速掌握文本中的重要信息。文本摘要已经被广泛应用于多个领域,如新闻、金融、会议和医疗等。目前,摘要任务主要有两种方法:抽取式方法和抽象式方法。抽取式方法主要从原文中复制重要信息,然后将它们聚合成文本。这种方法产生的摘要通常会保留源文本的显著信息,有着正确的语法,但不可避免的是容易产生大量冗余信息。抽象式方法是根据对源文本输入的理解来形成摘要。它试图去理解文本内容,可以生成原文中没有的单词,更加接近摘要本质,具有生成高质量摘要的潜力。综上,为了更好地生成新闻摘要,帮读者快速高效地掌握每日讯息,本研究侧重于抽象的摘要。
[0003]在抽象摘要中,序列到序列已经成为多种架构的主导框架。在早期,抽取式文本摘要主要是基于RNN的编
‑
解码器。由于“长距离依赖”问题,RNN到最后一个时间步输入单词时,已经丢失了大量信息,因此Bahdanau等人将Attention机制应用于NLP中。此后,文本摘要进入大发展,各种应用层出不穷。其中,最令人瞩目的当属Transformer架构。该模型在诸多领域取得了惊人的表现。目前的SO ...
【技术保护点】
【技术特征摘要】
1.一种基于图知识和主题感知的抽象文本摘要方法,其特征在于包括以下步骤:步骤(1):给定原始输入文档D,对原始输入文档D中每个句子的开头和结尾分别插入[CLS]和[SEP],然后将处理后的输入文档D放入预训练语言模型BERT,学习句子的特征表示H
B
;步骤(2):将原始输入文档D输入到神经主题模型NTM,学习文档的主题表示H
T
;步骤(3):将句子的特征表示H
B
和文档的主题表示H
T
输入到图注意网络GAT中,并进行初始化;经过图注意网络GAT编码后,生成带有主题信息的句子特征h';GAT编码过程是构建一个带有主题和句子的异构文档图,同时不断更新特征表示H
B
和主题表示H
T
所构成的节点表示;步骤(4):将带有主题信息的句子特征h'送入基于Transformer的解码器进行解码;并经过归一化后生成文本摘要;步骤(5):将GTASum模型在CNN/DailyMail数据集和XSum数据集上进行训练,挑选出最优的GTASum模型,将任意文本输入训练好的GTASum模型,输出对应的摘要内容;所述GTASum模型由预训练语言模型BERT、神经主题模型NTM、图注意网络GAT和解码器共同组成。2.根据权利要求1所述的一种基于图知识和主题感知的抽象文本摘要方法,其特征在于所述步骤(1)具体实现过程如下:1
‑
1对原始输入文档D中每个句子的开头和结尾分别插入特殊标记<CLS>和<SEP>,句子集合W={w1,w2,
…
,w
n
};其中,w
i
表示第i个句子;[CLS]放在每个句子开头,[SEP]放在每个句子末尾;1
‑
2将句子集合W放入预训练好的语言模型BERT,如公式1所示,生成序列的隐藏状态表示H
B
,并将隐藏状态表示H
B
视为相应句子的特征表示:H
B
={h1,h2,...,h
i
,...,h
n
}=BERT({w1,w2,...,w
i
,...,w
n
}) (1)。3.根据权利要求2所述的一种基于图知识和主题感知的抽象文本摘要方法,其特征在于所述步骤(2)具体实现过程如下:2
‑
1将原始输入文档D输入到神经主题模型NTM中进行编码;在编码过程中,会生成均值μ=f
μ
(x)和方差logσ=f
σ
(x);其中,函数f
μ
和f
σ
都是线性变换函数;2
‑
2解码过程有三步:第一:采用高斯分布来描述主题分布,即z~Ν(μ,σ)和θ=softmax(z);其中,z是潜在的主题变量,θ∈R
K
是z归一化的结果,K是主题维度;第二:通过p
w
=softmax(W
φ
θ)来学习预测词p
w
∈R
V
的出现概率;其中,W
φ
∈R
V
×
K
是类似LDA主题模型中的主题
‑
单词分布矩阵;第三:从预测词p
w
中提取每个单词来构造词袋x
box
;2
‑
3取出神经主题模型中间参数W
φ
,用公式2来构建主题表示H
T
;其中,是一组具有预定义维度是d
t
的主题表示,f
φ
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。