一种融合引导注意力的中文长文本摘要生成方法技术

技术编号:36502787 阅读:9 留言:0更新日期:2023-02-01 15:25
本发明专利技术公开了一种融合引导注意力的中文长文本摘要生成方法,融合引导注意力的中文长文本摘要生成方法包括:S1:获取原始BART词表和摘要生成源文本;S2:对原始BART词表进行词汇扩展和预训练,得到长文本词表和长文本词表嵌入矩阵;S3:根据长文本词表和长文本词表嵌入矩阵,得到文本嵌入模块;S4:根据摘要生成源文本中的长文本序列和引导序列,利用文本嵌入模块,得到长文本词嵌入向量和引导信息词嵌入向量;S5:根据长文本词嵌入向量和引导信息词嵌入向量,得到长文本上下文编码隐向量和引导信息上下文编码隐向量;S6:根据长文本上下文编码隐向量、引导信息上下文编码隐向量和t

【技术实现步骤摘要】
一种融合引导注意力的中文长文本摘要生成方法


[0001]本专利技术涉及摘要生成
,具体涉及一种融合引导注意力的中文长文本摘要生成方法。

技术介绍

[0002]目前基于深度学习的中文文本摘要生成方法大多是以Transformer为基础的序列到序列的结构,但Transformer中自注意操作与序列长度的平方成正比,这就导致大多数模型限制输入文本的长度,因而无法处理长文本的摘要生成。同时,现有的中文文本摘要模型的词表常以字为基础,并不包含中文常用词语与标点,经过分词后的文本在长文本跨度下很难有效联系上下文,从而严重限制了中文长文本自动摘要模型性能的发挥。
[0003]现有的部分技术虽然能够通过两种不同的解码网络同时加强模型的理解与生成能力;采用共享架构和多任务预训练来灵活微调,以加快文本生成的推理速度。但是,还存在以下问题:首先,由于基于Transformer框架,没有考虑输入文本长度受限的问题,因此导致在中文长文本摘要生成中的表现欠佳。其次,模型所用词表以字为基础,不包含中文常用词语与标点,经过分词后的文本在长文本跨度下很难有效联系上下文,所生成的摘要语义连贯性不高。

技术实现思路

[0004]本专利技术的目的在于提供一种融合引导注意力的中文长文本摘要生成方法,以解决现有的文本摘要生成方法存在输入文本长度受限无法有效应用于长文本数据以及分词后文本较难有效联系上下文,从而导致中文长文本摘要生成性能较低,影响实际应用的问题。
[0005]本专利技术解决上述技术问题的技术方案如下:
>[0006]本专利技术提供一种融合引导注意力的中文长文本摘要生成方法,所述融合引导注意力的中文长文本摘要生成方法包括:
[0007]S1:获取原始BART词表和摘要生成源文本;
[0008]S2:利用长文本词表拓展模块对所述原始BART词表进行词汇扩展和预训练,得到长文本词表和长文本词表嵌入矩阵;
[0009]S3:根据所述长文本词表和所述长文本词表嵌入矩阵,得到文本嵌入模块;
[0010]S4:根据所述摘要生成源文本中的长文本序列和引导序列,利用所述文本嵌入模块,得到长文本词嵌入向量和引导信息词嵌入向量;
[0011]S5:根据所述长文本词嵌入向量和所述引导信息词嵌入向量,利用带引导注意力的稀疏编码模块,得到长文本上下文编码隐向量和引导信息上下文编码隐向量;
[0012]S6:根据所述长文本上下文编码隐向量、所述引导信息上下文编码隐向量和t

1时刻生成摘要,利用带双交叉注意力的稀疏解码模块,得到t时刻生成摘要。
[0013]可选择地,所述步骤S2包括:
[0014]S21:保留所述原始BART词表的前13317个汉字及其他字符,得到第一词表;
[0015]S22:提取jieba分词库前4万个常用词,得到第二词表;
[0016]S23:对所述第一词表和所述第二词表进行前后拼接,得到长文本词表;
[0017]S24:对所述长文本词表进行预训练,得到长文本词嵌入矩阵。
[0018]可选择地,所述步骤S3中,所述文本嵌入模块包括依次设置的词嵌入子模块和层次位置编解码嵌入子模块,所述词嵌入子模块包括长文本词表和长文本词嵌入矩阵,所述长文本词表包括第一长文本词表分词和第二长文本词表分词,所述长文本词嵌入矩阵包括长文本序列词嵌入和引导序列词嵌入,所述层次位置分解编码嵌入子模块包括第一位置向量编码和第二位置向量编码,所述第一长文本词表分词、所述长文本序列词嵌入和所述第一位置向量编码依次设置,以用于依次对所述长文本序列进行处理,得到长文本词嵌入向量;所述第二长文本词表分词、所述引导序列词嵌入和所述第二位置向量编码依次设置,以用于依次对所述引导序列进行处理,得到引导信息词嵌入向量。
[0019]可选择地,所述步骤S4包括:
[0020]所述长文本序列依次经过所述第一长文本词表分词、所述长文本序列词嵌入和所述位置向量编码处理后,得到所述长文本词嵌入向量;
[0021]所述引导序列依次经过所述第二长文本词表分词、所述引导序列词嵌入和所述第二位置向量编码处理后,得到所述引导信息词嵌入向量。
[0022]可选择地,所述步骤S5中,所述带引导注意力的稀疏编码模块包括两组稀疏编码器组,每组所述稀疏编码器组包括多个依次设置的稀疏编码器,各所述稀疏编码器包括依次设置的稀疏自注意力单元、第一残差&归一化层、第一前馈神经网络和第二残差&归一化层,所述稀疏自注意力单元的输出结果及其输入同时作为所述第一残差&归一化层的输入,所述第一残差&归一化层的输出同时作为所述第一前馈神经网络和所述第二残差&归一化层的第一输入,所述第一前馈神经网络的输出结果作为所述第二残差&归一化层的第二输入,所述第二残差&归一化层的输出结果作为当前稀疏自注意力单元的输出结果,其中,每组稀疏编码器组的输入同时作为该组第一个稀疏编码器的输入和该稀疏编码器中稀疏自注意力单元和第一残差&归一化的输入,每组稀疏编码器组的输出结果为该组最后一个稀疏编码器的输出结果。
[0023]可选择地,所述步骤S5包括:
[0024]将所述长文本词嵌入向量作为第一组稀疏编码器组的输入,以及,将所述引导信息词嵌入向量作为第二组稀疏编码器组的输入;
[0025]利用第一组稀疏编码器组对所述长文本词嵌入向量进行处理,得到长文本上下文编码隐向量;
[0026]利用第二组稀疏编码器组对所述引导信息词嵌入向量进行处理,得到引导信息上下文编码隐向量。
[0027]可选择地,所述步骤S6中,所述带双交叉注意力的稀疏编码模块包括多个依次设置的带双交叉注意力的稀疏编码器,各所述带双交叉注意力的稀疏编码器包括依次设置的稀疏自注意力子模块、第三残差&归一化层、第一交叉自注意力子模块、第四残差&归一化层、第二交叉自注意力子模块、第五残差&归一化层、第二前馈神经网络和第六残差&归一化层;
[0028]所述t

1时刻生成摘要同时作为所述稀疏自注意力子模块的输入和所述第三残
差&归一化层的第一输入,所述稀疏自注意力子模块的输出作为所述第三残差&归一化层的第二输入,所述第三残差&归一化层的输出同时作为所述第一交叉自注意力子模块的输入和所述第四残差&归一化层的第一输入,所述长文本上下文编码隐向量作为为所述第一交叉自注意力子模块的第二输入,所述第一交叉自注意力子模块的输出作为所述第四残差&归一化层的第二输入,所述第四残差&归一化层的输出同时作为所述第二交叉自注意力子模块的第一输入和所述第五残差&归一化层的第一输入,所述引导信息上下文编码隐向量作为所述第二交叉自注意本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种融合引导注意力的中文长文本摘要生成方法,其特征在于,所述融合引导注意力的中文长文本摘要生成方法包括:S1:获取原始BART词表和摘要生成源文本;S2:利用长文本词表拓展模块对所述原始BART词表进行词汇扩展和预训练,得到长文本词表和长文本词表嵌入矩阵;S3:根据所述长文本词表和所述长文本词表嵌入矩阵,得到文本嵌入模块;S4:根据所述摘要生成源文本中的长文本序列和引导序列,利用所述文本嵌入模块,得到长文本词嵌入向量和引导信息词嵌入向量;S5:根据所述长文本词嵌入向量和所述引导信息词嵌入向量,利用带引导注意力的稀疏编码模块,得到长文本上下文编码隐向量和引导信息上下文编码隐向量;S6:根据所述长文本上下文编码隐向量、所述引导信息上下文编码隐向量和t

1时刻生成摘要,利用带双交叉注意力的稀疏解码模块,得到t时刻生成摘要。2.根据权利要求1所述的融合引导注意力的中文长文本摘要生成方法,其特征在于,所述步骤S2包括:S21:保留所述原始BART词表的前13317个汉字及其他字符,得到第一词表;S22:提取jieba分词库前4万个常用词,得到第二词表;S23:对所述第一词表和所述第二词表进行前后拼接,得到长文本词表;S24:对所述长文本词表进行预训练,得到长文本词嵌入矩阵。3.根据权利要求1所述的融合引导注意力的中文长文本摘要生成方法,其特征在于,所述步骤S3中,所述文本嵌入模块包括依次设置的词嵌入子模块和层次位置编解码嵌入子模块,所述词嵌入子模块包括长文本词表和长文本词嵌入矩阵,所述长文本词表包括第一长文本词表分词和第二长文本词表分词,所述长文本词嵌入矩阵包括长文本序列词嵌入和引导序列词嵌入,所述层次位置分解编码嵌入子模块包括第一位置向量编码和第二位置向量编码,所述第一长文本词表分词、所述长文本序列词嵌入和所述第一位置向量编码依次设置,以用于依次对所述长文本序列进行处理,得到长文本词嵌入向量;所述第二长文本词表分词、所述引导序列词嵌入和所述第二位置向量编码依次设置,以用于依次对所述引导序列进行处理,得到引导信息词嵌入向量。4.根据权利要求3所述的融合引导注意力的中文长文本摘要生成方法,其特征在于,所述步骤S4包括:所述长文本序列依次经过所述第一长文本词表分词、所述长文本序列词嵌入和所述位置向量编码处理后,得到所述长文本词嵌入向量;所述引导序列依次经过所述第二长文本词表分词、所述引导序列词嵌入和所述第二位置向量编码处理后,得到所述引导信息词嵌入向量。5.根据权利要求1所述的融合引导注意力的中文长文本摘要生成方法,其特征在于,所述步骤S5中,所述带引导注意力的稀疏编码模块包括两组稀疏编码器组,每组所述稀疏编码器组包括多个依次设置的稀疏编码器,各所述稀疏编码器包括依次设置的稀疏自注意力单元、第一残差&归一化层、第一前馈神经网络和第二残差&归一化层,所述稀疏自注意力单元的输出结果及其输入同时作为所述第一残差&归一化层的输入,所述第一残差&归一化层...

【专利技术属性】
技术研发人员:郭哲张智博周炜杰王毅樊养余
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1