一种结合全局主题信息的摘要生成方法技术

技术编号:36529988 阅读:21 留言:0更新日期:2023-02-01 16:11
本发明专利技术提出了一种结合全局主题信息的摘要生成方法,包括以下步骤:S1,抽取原文的关键主题信息;S2,将关键主题信息与原文表示融合;S3,采用指针生成网络生成摘要。本发明专利技术能够从原文主题的角度生成更加符合原文的摘要,通过引入主题信息令摘要对原文主题的覆盖度和摘要的流畅性均有提升。要的流畅性均有提升。要的流畅性均有提升。

【技术实现步骤摘要】
一种结合全局主题信息的摘要生成方法


[0001]本专利技术涉及自然语言处理
,特别是涉及一种结合全局主题信息的摘要 生成方法。

技术介绍

[0002]自动文摘技术旨在用计算机对文本进行理解、分析,进而生成涵盖原文主旨, 简洁精炼的摘要,它是自然语言处理(Natural Language Processing,NLP)领域被广 泛关注的研究内容,也是自动问答、新闻标题生成等众多下游应用的基础任务。
[0003]现有自动文摘方法主要分抽取式和生成式两类。抽取式摘要通过抽取原文重要 的文本单元组成摘要。生成式方法则以转述、同义替换、句子缩写等技术对原文进 行重述,其中常包含超出原文的词或短语,生成摘要的流畅性、概括性较好,更接 近人工摘要。近年来,结合深度神经网络的序列到序列(Sequence to Sequence,Seq2Seq) 摘要生成框架被广泛研究。同时,结合注意力机制的Seq2Seq摘要生成方法有针对 性地解决因句子过长而导致的梯度消失问题,提升了摘要的性能。影响摘要生成质 量的还有未登录词(out

of

vocabulary,OOV)、生成冗余词问题,为此,See等提出 用指针生成网络(Pointer

generator network)从文档中复制词,并用Coverage机制缓 解生成词冗余问题,提升了摘要性能。
[0004]总体来看,结合注意力机制的Seq2Seq框架为生成式摘要研究提供了基础。但 现有方法将摘要生成视为从原文到摘要的翻译过程,因此多关注原文字符与摘要字 符的相关性,注意力机制也建立在原文字符和摘要字符之间,较少从原文主题的角 度研究摘要生成方法,由此生成的摘要很容易偏离原文主题,不能准确地表达原文 的重点。

技术实现思路

[0005]本专利技术旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种结合 全局主题信息的摘要生成方法。
[0006]为了实现本专利技术的上述目的,本专利技术提供了一种结合全局主题信息的摘要生成 方法,包括以下步骤:
[0007]S1,抽取原文的关键主题信息;
[0008]S2,将关键主题信息与原文表示融合;
[0009]S3,采用指针生成网络生成摘要。
[0010]进一步地,所述S1是采用基于隐含狄利克雷分布的主题信息抽取器实现的,包 括以下步骤:
[0011]S1

1,由LDA模型得到文档集D的主题概率分布,以及各主题下的词概率分布; 选择概率为TOP p的主题,在TOP p主题下分别选取概率为TOP q的词项,构成 关键主题信息词集Top;
[0012]S1

2,以BERT预训练模型得到关键主题信息词集Top的嵌入表示;
[0013]S1

3,取所述关键主题信息词集Top的嵌入表示的均值向量作为文档的关键主题 信息向量G_T,计算如式(9)~(10)所示:
[0014]X=f
BERT
(Top)
ꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
[0015][0016]其中,X={x
11
,x
12
,...,x
1q
,...,x
pq
}为经BERT编码后的关键主题词向量集;
[0017]f
BERT
为BERT的非线性方程;
[0018]p为前p个主题;
[0019]q为前p个主题下的前q个主题词;
[0020]X
i
表示经BERT编码后的第i个关键主题词向量。
[0021]进一步地,所述S1是采用基于隐含狄利克雷分布的主题信息抽取器实现的,包 括以下步骤:
[0022]S1

1,由LDA模型得到文档集D的主题概率分布,以及各主题下的词概率分布; 选择概率为TOP p的主题,在TOP p主题下分别选取概率为TOP q的词项,构成 关键主题信息词集Top;
[0023]S1

2,以BERT预训练模型得到关键主题信息词集Top的嵌入表示;
[0024]S1

3,取所述关键主题信息词集Top的嵌入表示的均值向量作为文档的关键主题 信息向量G_T,计算如式(9)~(10)所示:
[0025]X=f
BERT
(Top)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
[0026][0027]其中,X={x
11
,x
12
,...,x
1q
,...,x
pq
}为经BERT编码后的关键主题词向量集;
[0028]f
BERT
为BERT的非线性方程;
[0029]p为前p个主题;
[0030]q为前p个主题下的前q个主题词;
[0031]X
i
表示经BERT编码后的第i个关键主题词向量。
[0032]进一步地,所述S2包括以下步骤:
[0033]S2

1,将文档的关键主题信息向量G_T经线性变换为与原文编码相同维度,得 到关键主题信息向量G_T';
[0034]S2

2,将关键主题信息向量G_T',编码端隐藏层向量h
i
和解码端隐藏层向量s
t
通 过线性变换,再经tanh激活函数得到相关度权重,将相关度权重进行转置、归一化 后得到注意力分布如式(12)~(13)所示:
[0035][0036][0037]其中,Att(h
i
,s
t
,G_T')表示对h
i
、s
t
、G_T'进行加性注意力操作;
[0038]v
T
tanh(W
h
h
i
+W
s
s
t
+W
g_t
G_T'+b
attn
)表示对tanh(W
h
h
i
+W
s
s
t
+W
g_t
G_T'+b
attn
)进行转置变换;
[0039]h
i
是原文词w
i
的隐藏层向量表示;
[0040]w
i
表示第i个原文词;
[0041]s
t
为解码端隐藏层向量;
[0042]G_T'为关键主题信息向量;
[0043]W
h
,W
s
,W
g_t
是可训练的参数矩阵;
[0044]b
attn
是偏置项;
[0045]softm本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种结合全局主题信息的摘要生成方法,其特征在于,包括以下步骤:S1,抽取原文的关键主题信息;S2,将关键主题信息与原文表示融合;S3,采用指针生成网络生成摘要。2.根据权利要求1所述的一种结合全局主题信息的摘要生成方法,其特征在于,所述S1是采用基于隐含狄利克雷分布的主题信息抽取器实现的,包括以下步骤:S1

1,由LDA模型得到文档集D的主题概率分布,以及各主题下的词概率分布;选择概率为TOP p的主题,在TOP p主题下分别选取概率为TOP q的词项,构成关键主题信息词集Top;S1

2,以BERT预训练模型得到关键主题信息词集Top的嵌入表示;S1

3,取所述关键主题信息词集Top的嵌入表示的均值向量作为文档的关键主题信息向量G_T,计算如式(9)~(10)所示:X=f
BERT
(Top)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)其中,X={x
11
,x
12
,...,x
1q
,...,x
pq
}为经BERT编码后的关键主题词向量集;f
BERT
为BERT的非线性方程;p为前p个主题;q为前p个主题下的前q个主题词;X
i
表示经BERT编码后的第i个关键主题词向量。3.根据权利要求1所述的一种结合全局主题信息的摘要生成方法,其特征在于,所述S2包括以下步骤:S2

1,将文档的关键主题信息向量G_T经线性变换为与原文编码相同维度,得到关键主题信息向量G_T';S2

2,将关键主题信息向量G_T',编码端隐藏层向量h
i
和解码端隐藏层向量s
t
通过线性变换,再经tanh激活函数得到相关度权重,将相关度权重进行转置、归一化后得到注意力分布如式(12)~(13)所示:如式(12)~(13)所示:其中,Att(h
i
,s
t
,G_T')表示对h
i
、s
t
、G_T'进行加性注意力操作;v
T
tanh(W
h
h
i
+W
s
s
t
+W
g_t
G_T'+b
attn
)表示对tanh(W
h
h
i
+W
s
s
t
+W
g_t
G_T'+b
attn
)进行转置变换;h
i
是原文词w
i
的隐藏层向量表示;w
i
表示第i个原文词;s
t
为解码端隐藏层向量;G_T'为关键主题信息向量;W
h
,W
s
,W
g_t
是可训练的参数矩阵;
b
attn
是偏置项;softmax(
·
)为归一化指数函数;S2

3,用注意力分布与原文各词的隐藏层向量加权求和,得到融合关键主题信息的上下文向量C
t
,如式(14)所示:其中,t表示时间步;T为总的时间步;为时间步t第i个词的注意力分布;表示时间步t第i个词的隐藏层向量。4.根据权利要求3所述的一种结合全局主题信息的摘要生成方法,其特征在于,所述S2还包括:将c
t
作为求解注意力分布时的额外输入,将当前时间步以前一定步长内的注意力权重考虑在内,计算当前时间步的注意力:计算当前时间步的注意力:其中,为时间步t的注意力分布;为时间步t第i个词的未归一化的注意力打分函数;W
h
,W
s
,...

【专利技术属性】
技术研发人员:卢玲段志丽王景慧李东远
申请(专利权)人:重庆理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1