文本摘要生成方法、装置、设备及存储介质制造方法及图纸

技术编号：28979834 阅读：19 留言：0更新日期：2021-06-23 09:26

本发明专利技术公开了一种文本摘要生成方法、装置、设备及存储介质。其中，该方法包括：获取需要生成文本摘要的目标文档；基于混合式文本摘要识别模型对所述目标文档进行识别，得到所述目标文档的文本摘要；其中，所述混合式文本摘要识别模型为通过强化学习的方法连接第一识别模型和第二识别模型生成的，所述第一识别模型用于输出抽取式文本摘要，所述第二识别模型用于输出生成式文本摘要。可以充分利用第一识别模型和第二识别模型的优点，支持处理较长文档，并生成概括性较高的新颖句子，且识别的速度和生成的文本摘要的质量均优于单独使用第一识别模型和第二识别模型。

全部详细技术资料下载

【技术实现步骤摘要】
文本摘要生成方法、装置、设备及存储介质
本专利技术涉及文本处理领域，尤其涉及一种文本摘要生成方法、装置、设备及存储介质。
技术介绍
相关技术中，文本摘要可以被分为两类：抽取式文本摘要(ExtractiveSummarization)和生成式文本摘要(AbstractiveSummarization)。在抽取式文本摘要中，组成摘要的句子和词汇从原文中直接抽取获得。抽取式文本摘要的模型通常需要对文档中各个句子和词语的重要性进行计算，然后抽取重要性较高的部分组成摘要。进行抽取式摘要的方法主要以规则方法为主，利用无监督学习来进行摘要抽取。但抽取式摘要最终生成的文本往往冗余度较高且概括性不强。随着神经网络和深度学习的不断发展，能够生成新颖句子且更容易吸收外部知识的生成式摘要模型得到了更多研究者的关注。这类模型通过读入整篇文章，理解其中的内容，再从无到有逐词生成对应的摘要段落。生成式摘要的难度较高，具有能够生成高质量摘要的潜能。生成式摘要的代表模型是“指针-生成器”(Pointer-Generator)模型，该方法通过覆盖机制(coveragemechanism)和指针生成器网络巧妙地缓解了生成式摘要模型常见的重复和无法处理词典外词汇的问题。然而，生成式摘要模型复杂，训练代价大，训练和运行速度较慢，对长文档的处理能力较低，无法满足实际应用场合的需求。
技术实现思路
有鉴于此，本专利技术实施例提供了一种文本摘要生成方法、装置、设备及存储介质，旨在改善文本摘要生成的质量。本专利技术实施例的技术方案...

【技术保护点】
1.一种文本摘要生成方法，其特征在于，包括：/n获取需要生成文本摘要的目标文档；/n基于混合式文本摘要识别模型对所述目标文档进行识别，得到所述目标文档的文本摘要；/n其中，所述混合式文本摘要识别模型为通过强化学习的方法连接第一识别模型和第二识别模型生成的，所述第一识别模型用于输出抽取式文本摘要，所述第二识别模型用于输出生成式文本摘要。/n

【技术特征摘要】
1.一种文本摘要生成方法，其特征在于，包括：
获取需要生成文本摘要的目标文档；
基于混合式文本摘要识别模型对所述目标文档进行识别，得到所述目标文档的文本摘要；
其中，所述混合式文本摘要识别模型为通过强化学习的方法连接第一识别模型和第二识别模型生成的，所述第一识别模型用于输出抽取式文本摘要，所述第二识别模型用于输出生成式文本摘要。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：
从训练语料中抽取设定数量个第一样本数据；每个第一样本数据包括：用于表征样本文档的每个摘要句子对应的源句子的第一数据向量和用于表征样本文档的每个摘要句子的第二数据向量；
将各第一样本数据的第一数据向量输入所述第一识别模型进行识别，得到各第一样本数据的抽取摘要句向量；
将各第一样本数据的抽取摘要句向量输入所述第二识别模型进行识别，得到各第一样本数据的初步摘要向量；
基于各第一样本数据的初步摘要向量和所述第二数据向量，确定当前混合式文本摘要识别模型对应的奖励值，根据策略梯度更新当前混合式文本摘要识别模型的参数，若所述奖励值未达到设定条件或者更新次数未达到设定次数，返回所述从训练语料中抽取设定数量个第一样本数据，以继续更新当前混合式文本摘要识别模型的参数，直至所述奖励值达到设定条件或者更新次数达到设定次数，得到最终的混合式文本摘要识别模型。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：
从所述训练语料中抽取设定数量个第二样本数据；每个第二样本数据包括：用于表征样本文档的第三数据向量和用于表征样本文档的每个摘要句子对应的源句子的第四数据向量；
基于各第二样本数据的第三数据向量和第四数据向量训练第一识别模型，若所述第一识别模型的训练未满足结束条件，返回所述从训练语料中抽取设定数量个第二样本数据，以继续训练所述第一识别模型，直至所述第一识别模型的训练满足结束条件，得到最终的第一识别模型。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：
从所述训练语料中抽取设定数量个第三样本数据；每个第三样本数据包括：用于表征样本文档的每个摘要句子对应的源句子的第五数据向量和用于表征...

【专利技术属性】
技术研发人员：王惠欣，任智杰，胡珉，柏宇，高扬，黄河燕，
申请(专利权)人：中国移动通信有限公司研究院，中国移动通信集团有限公司，北京理工大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人