【技术实现步骤摘要】
一种结合全局主题信息的摘要生成方法
[0001]本专利技术涉及自然语言处理
,特别是涉及一种结合全局主题信息的摘要 生成方法。
技术介绍
[0002]自动文摘技术旨在用计算机对文本进行理解、分析,进而生成涵盖原文主旨, 简洁精炼的摘要,它是自然语言处理(Natural Language Processing,NLP)领域被广 泛关注的研究内容,也是自动问答、新闻标题生成等众多下游应用的基础任务。
[0003]现有自动文摘方法主要分抽取式和生成式两类。抽取式摘要通过抽取原文重要 的文本单元组成摘要。生成式方法则以转述、同义替换、句子缩写等技术对原文进 行重述,其中常包含超出原文的词或短语,生成摘要的流畅性、概括性较好,更接 近人工摘要。近年来,结合深度神经网络的序列到序列(Sequence to Sequence,Seq2Seq) 摘要生成框架被广泛研究。同时,结合注意力机制的Seq2Seq摘要生成方法有针对 性地解决因句子过长而导致的梯度消失问题,提升了摘要的性能。影响摘要生成质 量的还有未登录词(out
‑
of
‑
vocabulary,OOV)、生成冗余词问题,为此,See等提出 用指针生成网络(Pointer
‑
generator network)从文档中复制词,并用Coverage机制缓 解生成词冗余问题,提升了摘要性能。
[0004]总体来看,结合注意力机制的Seq2Seq框架为生成式摘要研究提供了基础。但 现有方法将摘要生成视为从原 ...
【技术保护点】
【技术特征摘要】
1.一种结合全局主题信息的摘要生成方法,其特征在于,包括以下步骤:S1,抽取原文的关键主题信息;S2,将关键主题信息与原文表示融合;S3,采用指针生成网络生成摘要。2.根据权利要求1所述的一种结合全局主题信息的摘要生成方法,其特征在于,所述S1是采用基于隐含狄利克雷分布的主题信息抽取器实现的,包括以下步骤:S1
‑
1,由LDA模型得到文档集D的主题概率分布,以及各主题下的词概率分布;选择概率为TOP p的主题,在TOP p主题下分别选取概率为TOP q的词项,构成关键主题信息词集Top;S1
‑
2,以BERT预训练模型得到关键主题信息词集Top的嵌入表示;S1
‑
3,取所述关键主题信息词集Top的嵌入表示的均值向量作为文档的关键主题信息向量G_T,计算如式(9)~(10)所示:X=f
BERT
(Top)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)其中,X={x
11
,x
12
,...,x
1q
,...,x
pq
}为经BERT编码后的关键主题词向量集;f
BERT
为BERT的非线性方程;p为前p个主题;q为前p个主题下的前q个主题词;X
i
表示经BERT编码后的第i个关键主题词向量。3.根据权利要求1所述的一种结合全局主题信息的摘要生成方法,其特征在于,所述S2包括以下步骤:S2
‑
1,将文档的关键主题信息向量G_T经线性变换为与原文编码相同维度,得到关键主题信息向量G_T';S2
‑
2,将关键主题信息向量G_T',编码端隐藏层向量h
i
和解码端隐藏层向量s
t
通过线性变换,再经tanh激活函数得到相关度权重,将相关度权重进行转置、归一化后得到注意力分布如式(12)~(13)所示:如式(12)~(13)所示:其中,Att(h
i
,s
t
,G_T')表示对h
i
、s
t
、G_T'进行加性注意力操作;v
T
tanh(W
h
h
i
+W
s
s
t
+W
g_t
G_T'+b
attn
)表示对tanh(W
h
h
i
+W
s
s
t
+W
g_t
G_T'+b
attn
)进行转置变换;h
i
是原文词w
i
的隐藏层向量表示;w
i
表示第i个原文词;s
t
为解码端隐藏层向量;G_T'为关键主题信息向量;W
h
,W
s
,W
g_t
是可训练的参数矩阵;
b
attn
是偏置项;softmax(
·
)为归一化指数函数;S2
‑
3,用注意力分布与原文各词的隐藏层向量加权求和,得到融合关键主题信息的上下文向量C
t
,如式(14)所示:其中,t表示时间步;T为总的时间步;为时间步t第i个词的注意力分布;表示时间步t第i个词的隐藏层向量。4.根据权利要求3所述的一种结合全局主题信息的摘要生成方法,其特征在于,所述S2还包括:将c
t
作为求解注意力分布时的额外输入,将当前时间步以前一定步长内的注意力权重考虑在内,计算当前时间步的注意力:计算当前时间步的注意力:其中,为时间步t的注意力分布;为时间步t第i个词的未归一化的注意力打分函数;W
h
,W
s
,...
【专利技术属性】
技术研发人员:卢玲,段志丽,王景慧,李东远,
申请(专利权)人:重庆理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。