文本摘要生成方法、装置、设备及存储介质制造方法及图纸

技术编号:28979834 阅读:19 留言:0更新日期:2021-06-23 09:26
本发明专利技术公开了一种文本摘要生成方法、装置、设备及存储介质。其中,该方法包括:获取需要生成文本摘要的目标文档;基于混合式文本摘要识别模型对所述目标文档进行识别,得到所述目标文档的文本摘要;其中,所述混合式文本摘要识别模型为通过强化学习的方法连接第一识别模型和第二识别模型生成的,所述第一识别模型用于输出抽取式文本摘要,所述第二识别模型用于输出生成式文本摘要。可以充分利用第一识别模型和第二识别模型的优点,支持处理较长文档,并生成概括性较高的新颖句子,且识别的速度和生成的文本摘要的质量均优于单独使用第一识别模型和第二识别模型。

【技术实现步骤摘要】
文本摘要生成方法、装置、设备及存储介质
本专利技术涉及文本处理领域,尤其涉及一种文本摘要生成方法、装置、设备及存储介质。
技术介绍
相关技术中,文本摘要可以被分为两类:抽取式文本摘要(ExtractiveSummarization)和生成式文本摘要(AbstractiveSummarization)。在抽取式文本摘要中,组成摘要的句子和词汇从原文中直接抽取获得。抽取式文本摘要的模型通常需要对文档中各个句子和词语的重要性进行计算,然后抽取重要性较高的部分组成摘要。进行抽取式摘要的方法主要以规则方法为主,利用无监督学习来进行摘要抽取。但抽取式摘要最终生成的文本往往冗余度较高且概括性不强。随着神经网络和深度学习的不断发展,能够生成新颖句子且更容易吸收外部知识的生成式摘要模型得到了更多研究者的关注。这类模型通过读入整篇文章,理解其中的内容,再从无到有逐词生成对应的摘要段落。生成式摘要的难度较高,具有能够生成高质量摘要的潜能。生成式摘要的代表模型是“指针-生成器”(Pointer-Generator)模型,该方法通过覆盖机制(coveragemechanism)和指针生成器网络巧妙地缓解了生成式摘要模型常见的重复和无法处理词典外词汇的问题。然而,生成式摘要模型复杂,训练代价大,训练和运行速度较慢,对长文档的处理能力较低,无法满足实际应用场合的需求。
技术实现思路
有鉴于此,本专利技术实施例提供了一种文本摘要生成方法、装置、设备及存储介质,旨在改善文本摘要生成的质量。本专利技术实施例的技术方案是这样实现的:本专利技术实施例提供了一种文本摘要生成方法,包括:获取需要生成文本摘要的目标文档;基于混合式文本摘要识别模型对所述目标文档进行识别,得到所述目标文档的文本摘要;其中,所述混合式文本摘要识别模型为通过强化学习的方法连接第一识别模型和第二识别模型生成的,所述第一识别模型用于输出抽取式文本摘要,所述第二识别模型用于输出生成式文本摘要。上述方案中,所述方法还包括:从训练语料中抽取设定数量个第一样本数据;每个第一样本数据包括:用于表征样本文档的每个摘要句子对应的源句子的第一数据向量和用于表征样本文档的每个摘要句子的第二数据向量;将各第一样本数据的第一数据向量输入所述第一识别模型进行识别,得到各第一样本数据的抽取摘要句向量;将各第一样本数据的抽取摘要句向量输入所述第二识别模型进行识别,得到各第一样本数据的初步摘要向量;基于各第一样本数据的初步摘要向量和所述第二数据向量,确定当前混合式文本摘要识别模型对应的奖励值,根据策略梯度更新当前混合式文本摘要识别模型的参数,若所述奖励值未达到设定条件或者更新次数未达到设定次数,返回所述从训练语料中抽取设定数量个第一样本数据,以继续更新当前混合式文本摘要识别模型的参数,直至所述奖励值达到设定条件或者更新次数达到设定次数,得到最终的混合式文本摘要识别模型。上述方案中,所述方法还包括:从所述训练语料中抽取设定数量个第二样本数据;每个第二样本数据包括:用于表征样本文档的第三数据向量和用于表征样本文档的每个摘要句子对应的源句子的第四数据向量;基于各第二样本数据的第三数据向量和第四数据向量训练所述第一识别模型,若所述第一识别模型的训练未满足结束条件,返回所述从训练语料中抽取设定数量个第二样本数据,以继续训练第一识别模型,直至所述第一识别模型的训练满足结束条件,得到最终的第一识别模型。上述方案中,所述方法还包括:从所述训练语料中抽取设定数量个第三样本数据;每个第三样本数据包括:用于表征样本文档的每个摘要句子对应的源句子的第五数据向量和用于表征样本文档的每个摘要句子的第六数据向量;基于各第三样本数据的第五数据向量和第六数据向量训练所述第二识别模型,若所述第二识别模型的训练未满足结束条件,返回所述从训练语料数据中抽取设定数量个第三样本数据,以继续训练第二识别模型,直至所述第二识别模型的训练满足结束条件,得到最终的第二识别模型。上述方案中,利用所述第二识别模型对各第三样本数据的第五数据向量进行编码时,将当前源句子与其他源句子通过注意力机制进行编码。上述方案中,所述将各第一样本数据的抽取摘要句向量输入所述第二识别模型进行识别,得到各第一样本数据的初步摘要向量,包括:所述第二识别模型接收抽取摘要句向量及样本文档中对应的源句子的数据向量,通过注意力机制将抽取摘要句向量与源句子的数据向量基于全局信息进行编码,并对编码后的数据进行解码,得到所述初步摘要向量。上述方案中,所述方法还包括:对原始训练语料基于令牌化技术进行编码,生成记录词与编码数据间映射关系的词表;对所述原始训练语料基于贪心算法对摘要句子对应的源句子进行标识;基于所述词表对所述原始训练语料中文档的词汇进行训练,得到词汇的词向量。本专利技术实施例还提供一种文本摘要生成装置,包括:获取模块,用于获取需要生成文本摘要的目标文档;识别模块,用于基于混合式文本摘要识别模型对所述目标文档进行识别,得到所述目标文档的文本摘要;其中,所述混合式文本摘要识别模型为通过强化学习方法连接第一识别模型和第二识别模型生成的,所述第一识别模型用于输出抽取式文本摘要,所述第二识别模型用于输出生成式文本摘要。本专利技术实施例又提供了一种文本摘要生成设备,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,所述处理器,用于运行计算机程序时,执行本专利技术任一实施例所述方法的步骤。本专利技术实施例还提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现本专利技术任一实施例方法的步骤。本专利技术实施例提供的技术方案,基于混合式文本摘要识别模型对目标文档进行识别,得到目标文档的文本摘要;其中,所述混合式文本摘要识别模型为通过强化学习方法连接第一识别模型和第二识别模型生成的,所述第一识别模型用于输出抽取式文本摘要,所述第二识别模型用于输出生成式文本摘要。可以充分利用第一识别模型和第二识别模型的优点,支持处理较长文档,并生成概括性较高的新颖句子,且识别的速度和生成的文本摘要的质量均优于单独使用第一识别模型和第二识别模型。附图说明图1为本专利技术实施例文本摘要生成方法的流程示意图;图2为本专利技术实施例训练混合式文本摘要识别模型的流程示意图;图3为本专利技术实施例训练第一识别模型的流程示意图;图4为本专利技术实施例训练第二识别模型的流程示意图;图5为本专利技术应用实施例文本摘要生成方法的流程示意图;图6为本专利技术实施例文本摘要生成装置的结构示意图;图7为本专利技术实施例文本摘要生成设备的结构示意图。具体实施方式下面结合附图及实施例对本专利技术再作进一步详细的描述。除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本文中在本专利技术的说明书中所使用的术语只是为了本文档来自技高网
...

【技术保护点】
1.一种文本摘要生成方法,其特征在于,包括:/n获取需要生成文本摘要的目标文档;/n基于混合式文本摘要识别模型对所述目标文档进行识别,得到所述目标文档的文本摘要;/n其中,所述混合式文本摘要识别模型为通过强化学习的方法连接第一识别模型和第二识别模型生成的,所述第一识别模型用于输出抽取式文本摘要,所述第二识别模型用于输出生成式文本摘要。/n

【技术特征摘要】
1.一种文本摘要生成方法,其特征在于,包括:
获取需要生成文本摘要的目标文档;
基于混合式文本摘要识别模型对所述目标文档进行识别,得到所述目标文档的文本摘要;
其中,所述混合式文本摘要识别模型为通过强化学习的方法连接第一识别模型和第二识别模型生成的,所述第一识别模型用于输出抽取式文本摘要,所述第二识别模型用于输出生成式文本摘要。


2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从训练语料中抽取设定数量个第一样本数据;每个第一样本数据包括:用于表征样本文档的每个摘要句子对应的源句子的第一数据向量和用于表征样本文档的每个摘要句子的第二数据向量;
将各第一样本数据的第一数据向量输入所述第一识别模型进行识别,得到各第一样本数据的抽取摘要句向量;
将各第一样本数据的抽取摘要句向量输入所述第二识别模型进行识别,得到各第一样本数据的初步摘要向量;
基于各第一样本数据的初步摘要向量和所述第二数据向量,确定当前混合式文本摘要识别模型对应的奖励值,根据策略梯度更新当前混合式文本摘要识别模型的参数,若所述奖励值未达到设定条件或者更新次数未达到设定次数,返回所述从训练语料中抽取设定数量个第一样本数据,以继续更新当前混合式文本摘要识别模型的参数,直至所述奖励值达到设定条件或者更新次数达到设定次数,得到最终的混合式文本摘要识别模型。


3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
从所述训练语料中抽取设定数量个第二样本数据;每个第二样本数据包括:用于表征样本文档的第三数据向量和用于表征样本文档的每个摘要句子对应的源句子的第四数据向量;
基于各第二样本数据的第三数据向量和第四数据向量训练第一识别模型,若所述第一识别模型的训练未满足结束条件,返回所述从训练语料中抽取设定数量个第二样本数据,以继续训练所述第一识别模型,直至所述第一识别模型的训练满足结束条件,得到最终的第一识别模型。


4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
从所述训练语料中抽取设定数量个第三样本数据;每个第三样本数据包括:用于表征样本文档的每个摘要句子对应的源句子的第五数据向量和用于表征...

【专利技术属性】
技术研发人员:王惠欣任智杰胡珉柏宇高扬黄河燕
申请(专利权)人:中国移动通信有限公司研究院中国移动通信集团有限公司北京理工大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1