一种长文本的摘要生成方法技术

技术编号:36912566 阅读:18 留言:0更新日期:2023-03-18 09:30
本申请提供一种长文本的摘要生成方法,涉及自然语言处理技术领域,该方法包括:获取抽取式模型输出的目标文本对应的多个关键语句;将所述多个关键语句输入生成式模型的第一编码模块,根据所述多个关键语句进行第一语义信息提取,生成所述第一语义信息对应的第一编码向量;将所述目标文本输入所述生成式模型的第二编码模块,根据所述目标文本进行第二语义信息提取,生成所述第二语义信息对应的第二编码向量;将所述第一编码向量和所述第二编码向量,输入所述生成式模型的解码模块,获取所述目标文本对应的摘要文本。用以解决针对长文本,获取文本对应的文本摘要的准确性不高的问题。题。题。

【技术实现步骤摘要】
一种长文本的摘要生成方法


[0001]本申请涉及自然语言处理
,尤其涉及一种长文本的摘要生成方法。

技术介绍

[0002]目前,文本数据以极快的速度在增长,面对海量的文本数据,为了获取文章的主要信息,用户需要对文章进行通篇阅读,再对核心内容进行概括,效率很低。随着机器学习技术的发展,可以基于机器学模型进行文本摘要的自动提取或生成。
[0003]但目前基于机器学模型可对较短的文本进行文本摘要的自动提取或生成,面对长文本,基于现有方法得到的文本摘要的准确性较差,即不能准确反应文本的主要信息。因此,如何提高获取的长文本的文本摘要的准确性是亟需解决的问题。

技术实现思路

[0004]为了解决基于现有方法对长文本进行处理得到的文本摘要的准确性较差的问题,本申请提供了一种长文本的摘要生成方法、装置、电子设备及存储介质。
[0005]第一方面,本申请提供了一种长文本的摘要生成方法,包括:获取抽取式模型输出的目标文本对应的多个关键语句;将所述多个关键语句输入生成式模型的第一编码模块,根据所述多个关键语句进行第一语义信息提取,生成所述第一语义信息对应的第一编码向量;将所述目标文本输入所述生成式模型的第二编码模块,根据所述目标文本进行第二语义信息提取,生成所述第二语义信息对应的第二编码向量;将所述第一编码向量和所述第二编码向量,输入所述生成式模型的解码模块,获取所述目标文本对应的摘要文本。
[0006]作为本申请实施例一种可选的实施方式,所述生成式模型的解码模块中包括第一注意力模块和第二注意力模块;所述将所述第一编码向量和所述第二编码向量,输入所述生成式模型的解码模块,获取所述目标文本对应的摘要文本,包括:将所述第一编码向量和参考向量输入所述第一注意力模块,基于多头注意力机制进行处理,得到第一输出向量;所述参考向量为所述第二注意力模块输出的用于构成摘要文本的词的向量;将所述第一输出向量和所述第二编码向量输入所述第二注意力模块,基于多头注意力机制进行处理,得到第二输出向量;基于所述第二输出向量得到所述目标文本对应的摘要文本。
[0007]作为本申请实施例一种可选的实施方式,所述获取抽取式模型输出的目标文本对应的多个关键语句,包括:将目标文本输入抽取式模型,通过所述抽取式模型执行如下操作:对所述目标文本进行语句划分,得到所述目标文本对应的多个语句;
基于所述抽取式模型中的BERT模型获取所述多个语句对应的局部语义信息,生成所述多个语句对应的第一语句向量;对所述多个语句对应的第一语句向量进行多层膨胀门卷积处理,得到所述多个语句对应的全局语义信息,并基于所述全局语义信息得到所述目标文本对应的多个关键语句。
[0008]作为本申请实施例一种可选的实施方式,所述对所述目标文本进行语句划分,得到所述目标文本对应的多个语句,包括:基于所述目标文本的标点符号,对所述目标文本进行划分;对划分后的每个部分增加起始标识和结束标识,得到多个语句。
[0009]作为本申请实施例一种可选的实施方式,所述基于所述全局信息得到所述目标文本对应的多个关键语句,包括:根据所述全局语义信息生成所述多个语句对应的第二语句向量;将所述第二语句向量输入全连接层进行打分,获取每个第二语句向量的得分;获取得分大于预设阈值的第二语句向量对应的语句为所述目标文本对应的多个关键语句。
[0010]作为本申请实施例一种可选的实施方式,所述对所述多个语句对应的第一语句向量进行多层膨胀门卷积处理,得到所述多个语句对应的全局语义信息,包括:通过膨胀门卷积层对所述多个语句对应的第一语句向量进行处理,获取所述多个语句对应的第一语句向量之间的依赖关系;基于所述依赖关系获取所述多个语句对应的全局语义信息。
[0011]作为本申请实施例一种可选的实施方式,所述膨胀门卷积层包括多种不同卷积核的卷积神经网络;所述通过膨胀门卷积层对所述多个语句对应的语句向量进行处理,包括:基于所述多种不同卷积核的卷积神经网络对所述多个语句对应的语句向量进行卷积处理、拼接处理、和降维处理。
[0012]第二方面,本申请提供一种长文本的摘要生成装置,包括:抽取模块,用于获取抽取式模型输出的目标文本对应的多个关键语句;编码模块,用于将所述多个关键语句输入生成式模型的第一编码模块,根据所述多个关键语句进行第一语义信息提取,生成所述第一语义信息对应的第一编码向量;所述编码模块,还用于将所述目标文本输入所述生成式模型的第二编码模块,根据所述目标文本进行第二语义信息提取,生成所述第二语义信息对应的第二编码向量;解码模块,用于将所述第一编码向量和所述第二编码向量,输入所述生成式模型的解码模块,获取所述目标文本对应的摘要文本。
[0013]作为本申请实施例一种可选的实施方式,所述生成式模型的解码模块中包括第一注意力模块和第二注意力模块;所述解码模块,具体用于将所述第一编码向量和参考向量输入所述第一注意力模块,基于多头注意力机制进行处理,得到第一输出向量;所述参考向量为所述第二注意力模块输出的用于构成摘要文本的词的向量;将所述第一输出向量和所述第二编码向量输入所述第二注意力模块,基于多头注
意力机制进行处理,得到第二输出向量;基于所述第二输出向量得到所述目标文本对应的摘要文本。
[0014]作为本申请实施例一种可选的实施方式,所述抽取模块,具体用于将目标文本输入抽取式模型,通过所述抽取式模型执行如下操作:对所述目标文本进行语句划分,得到所述目标文本对应的多个语句;基于所述抽取式模型中的BERT模型获取所述多个语句对应的局部语义信息,生成所述多个语句对应的第一语句向量;对所述多个语句对应的第一语句向量进行多层膨胀门卷积处理,得到所述多个语句对应的全局语义信息,并基于所述全局语义信息得到所述目标文本对应的多个关键语句。
[0015]作为本申请实施例一种可选的实施方式,所述抽取模块,具体用于基于所述目标文本的标点符号,对所述目标文本进行划分;对划分后的每个部分增加起始标识和结束标识,得到多个语句。
[0016]作为本申请实施例一种可选的实施方式,所述抽取模块,具体用于根据所述全局语义信息生成所述多个语句对应的第二语句向量;将所述第二语句向量输入全连接层进行打分,获取每个第二语句向量的得分;获取得分大于预设阈值的第二语句向量对应的语句为所述目标文本对应的多个关键语句。
[0017]作为本申请实施例一种可选的实施方式,所述抽取模块,具体用于通过膨胀门卷积层对所述多个语句对应的第一语句向量进行处理,获取所述多个语句对应的第一语句向量之间的依赖关系;基于所述依赖关系获取所述多个语句对应的全局语义信息。
[0018]作为本申请实施例一种可选的实施方式,所述膨胀门卷积层包括多种不同卷积核的卷积神经网络;所述抽取模块,具体用于基于所述多种不同卷积核的卷积神经网络对所述多个语句对应的语句向量进行卷积处理、拼接处理、和降维处理。
[0019]第三方面,本申请实施例提供一种电子设备,包括:存储器和处理器,所述存储器用于存储计算机程序,所述处理器本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种长文本的摘要生成方法,其特征在于,包括:获取抽取式模型输出的目标文本对应的多个关键语句;将所述多个关键语句输入生成式模型的第一编码模块,根据所述多个关键语句进行第一语义信息提取,生成所述第一语义信息对应的第一编码向量;将所述目标文本输入所述生成式模型的第二编码模块,根据所述目标文本进行第二语义信息提取,生成所述第二语义信息对应的第二编码向量;将所述第一编码向量和所述第二编码向量,输入所述生成式模型的解码模块,获取所述目标文本对应的摘要文本。2.根据权利要求1所述的方法,其特征在于,所述生成式模型的解码模块中包括第一注意力模块和第二注意力模块;所述将所述第一编码向量和所述第二编码向量,输入所述生成式模型的解码模块,获取所述目标文本对应的摘要文本,包括:将所述第一编码向量和参考向量输入所述第一注意力模块,基于多头注意力机制进行处理,得到第一输出向量;所述参考向量为所述第二注意力模块输出的用于构成摘要文本的词的向量;将所述第一输出向量和所述第二编码向量输入所述第二注意力模块,基于多头注意力机制进行处理,得到第二输出向量;基于所述第二输出向量得到所述目标文本对应的摘要文本。3.根据权利要求1所述的方法,其特征在于,所述获取抽取式模型输出的目标文本对应的多个关键语句,包括:将目标文本输入抽取式模型,通过所述抽取式模型执行如下操作:对所述目标文本进行语句划分,得到所述目标文本对应的多个语句;基于所述抽取式模型中的BERT模型获取所述多个语句对应的局部语义信息,生成所述多个语句对应的第一语句向量;对所述多个语句对应的第一语句向量进行多层膨胀门卷积处理,得到所述多个语句对应的全局语义信息,并基于所述全局语义信息得到所述目标文本对应的多个关键语句。4.根据权利要求3所述的方法,其特征在于,所述对所述目标文本进行语句划分,得到所述目标文本对应的多个语句,包括:基于所述目标文本的标点符号,对所述目标文本进行划分;对划分后的每个部分增加起始标识和结束标识,得到多个语句。5.根据权利要求3所述...

【专利技术属性】
技术研发人员:马宁谭可华徐东
申请(专利权)人:医智生命科技天津有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1