本发明专利技术涉及一种文本摘要生成方法、装置及计算机设备,方法包括:获取待生成摘要的源文档并对所述源文档进行预处理,得到目标源文档;对所述目标源文档中各个单词进行计算,得到各单词的词频逆文档频率值;根据预设训练词向量将所述目标源文档中各个单词转换为单词特征向量;根据CNN模型和LSTM模型对所述目标源文档进行特征提取和向量拼接,得到所述目标源文档的句子特征向量;根据所述目标源文档构建词袋向量,并将所述词袋向量输入至获取的目标NTM模型,得到主题特征向量;将所述单词特征向量、所述句子特征向量、所述主题特征向量及各单词的词频逆文档频率值输入到获取的目标文本摘要生成模型,生成目标文本摘要。生成目标文本摘要。生成目标文本摘要。
【技术实现步骤摘要】
文本摘要生成方法、装置及计算机设备
[0001]本专利技术涉及自然语言处理
,尤其涉及一种文本摘要生成方法、装置及计算机设备。
技术介绍
[0002]随着互联网产生的文本数据越来越多,文本信息过载问题日益严重,如何对各类文本进行压缩处理,从中快速、准确、全面的挖掘有效信息,已经成为了自然语言处理研究领域的热点之一。文本摘要生成技术是指,利用计算机自动地从长文本或文本集合中提炼出一段能准确反映源文本中心内容的简洁连贯的短文,该短文就是最终的目标摘要。目前的文本摘要生成方法主要分为以下两类:
[0003]1.基于机器学习的方法。该方法通过提取源文本的浅层特征来训练如支持向量机、贝叶斯、隐马尔可夫模型、决策树、随机森林等的机器学习算法,从而生成最终的目标摘要。然而,基于机器学习的文本摘要生成方法主要依赖于特征工程,提取特征的效率较低,从而导致检测过程非常费时费力。
[0004]2.基于深度学习的方法。该方法通过卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)以及长短时记忆(Long short
‑
term memory,LSTM)网络等神经网络模型对源文本进行建模,得到文本单元表示之后进行文本单元的抽取,最终形成目标摘要,从而解决了现有基于机器学习的文本摘要生成方法提取特征效率低下的问题。但是现有基于深度学习的文本摘要生成方法仍然存在一些不可忽略的缺陷,譬如,现有的CNN、RNN以及LSTM等模型在对句子进行特征提取时,常将句子看作是独立的整体,从而忽略了句子与其他语义粒度之间的交互关系;此外,现有模型不考虑源文档主题信息,造成主题划分与摘要任务不匹配,影响生成目标摘要的准确性与完整性。
技术实现思路
[0005]基于此,有必要针对上述
技术介绍
中的问题,提供一种能够捕捉源文档句子与单词、主题的多种粒度语义之间的交互关系的文本摘要生成方法、装置及计算机设备。
[0006]为解决上述技术问题,本申请的第一方面提出一种文本摘要生成方法,包括:
[0007]获取待生成摘要的源文档并对所述源文档进行预处理,得到目标源文档;
[0008]对所述目标源文档中各个单词进行计算,得到各单词的词频逆文档频率值;
[0009]根据预设训练词向量将所述目标源文档中各个单词转换为单词特征向量;
[0010]根据CNN模型和LSTM模型对所述目标源文档进行特征提取和向量拼接,得到所述目标源文档的句子特征向量;
[0011]根据所述目标源文档构建词袋向量,并将所述词袋向量输入至获取的目标NTM模型,得到主题特征向量;
[0012]将所述单词特征向量、所述句子特征向量、所述主题特征向量及各单词的词频逆
文档频率值输入到获取的目标文本摘要生成模型,生成目标文本摘要。
[0013]在其中一个实施例中,所述目标文本摘要生成模型包括依次连接的目标NTM模型、异构图模型、GAT模型和目标句子分类模型。
[0014]在其中一个实施例中,将所述单词特征向量、所述句子特征向量、所述主题特征向量及各单词的词频逆文档频率值输入到获取的目标文本摘要生成模型,生成目标文本摘要,包括:
[0015]将所述单词特征向量、所述句子特征向量、所述主题特征向量及各单词的词频逆文档频率值输入至所述异构图模型,构建多语义粒度异构图;
[0016]将所述多语义粒度异构图输入至所述GAT模型,以获取更新后的句子特征向量;
[0017]将所述更新后的句子特征向量输入至所述目标句子分类模型,以对所述目标源文档中句子进行分类,生成所述目标文本摘要。
[0018]在其中一个实施例中,获取目标文本摘要生成模型,包括:
[0019]获取源文档数据集并对所述源文档数据集进行预处理,得到处理后的源文档内容和处理后的源文档标签;
[0020]对处理后的源文档内容以预设比例划分,得到训练集和测试集;
[0021]根据所述训练集分别确定训练单词特征向量、权重特征向量及训练句子特征向量;
[0022]获取预训练NTM模型,并根据所述预训练NTM模型得到训练主题特征向量;
[0023]将所述训练单词特征向量、所述权重特征向量、所述训练句子特征向量及所述训练主题特征向量输入至所述异构图模型,构建训练多语义粒度异构图;
[0024]将所述训练多语义粒度异构图输入至所述GAT模型,依次更新所述训练句子特征向量、所述训练单词特征向量及所述训练主题特征向量;
[0025]根据更新后的训练句子特征向量和处理后的文档标签,确定句子分类交叉熵损失值;
[0026]确定所述预训练NTM模型对应的主题分布交叉熵损失值;
[0027]将所述主题分布交叉熵损失值和所述句子分类交叉熵损失值联合组成文本摘要生成损失值,并利用Adam优化器最小化所述文本摘要生成损失值,得到初始文本摘要生成模型;
[0028]利用所述测试集对所述初始文本摘要生成模型进行测试,直至抽取精度达到预设阈值精度,得到所述目标文本摘要生成模型。
[0029]在其中一个实施例中,获取预训练NTM模型,并根据所述预训练NTM模型得到训练主题特征向量,包括:
[0030]构建训练集词袋向量,所述训练集词袋向量为所述训练集中每个源文档对应的词袋向量;
[0031]将所述训练集词袋向量输入至初始NTM模型,计算初始主题交叉熵损失值,并利用Adam优化器最小化所述初始主题交叉熵损失值,且预训练预设轮次,得到所述预训练NTM模型;
[0032]将所述训练集词袋向量输入至所述预训练NTM模型,得到所述训练主题特征向量。
[0033]在其中一个实施例中,根据更新后的训练句子特征向量和处理后的文档标签,确
定句子分类交叉熵损失值,包括:
[0034]将更新后的训练句子特征向量输入至初始句子分类模型中,以得到分类输出向量;
[0035]对所述分类输出向量进行Softmax操作,并结合处理后的文档标签,计算所述句子分类交叉熵损失值。
[0036]在其中一个实施例中,得到初始文本摘要生成模型,包括:
[0037]组成文本摘要生成损失值,并利用Adam优化器最小化所述文本摘要生成损失值,得到所述目标NTM模型和所述目标句子分类模型。
[0038]在其中一个实施例中,对所述源文档进行预处理,得到目标源文档,包括:
[0039]根据正则表达式对所述源文档进行数据清洗,得到去特殊符号的源文档;
[0040]根据自然语言处理工具包对所述去特殊符号的源文档进行去停用词操作,得到所述目标源文档;
[0041]本申请的第二方面提出一种文本摘要生成装置,包括:
[0042]预处理模块,用于获取待生成摘要的源文档并对所述源文档进行预处理,得到目标源文档;
[0043]计算模块,用于对所本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种文本摘要生成方法,其特征在于,包括:获取待生成摘要的源文档并对所述源文档进行预处理,得到目标源文档;对所述目标源文档中各个单词进行计算,得到各单词的词频逆文档频率值;根据预设训练词向量将所述目标源文档中各个单词转换为单词特征向量;根据CNN模型和LSTM模型对所述目标源文档进行特征提取和向量拼接,得到所述目标源文档的句子特征向量;根据所述目标源文档构建词袋向量,并将所述词袋向量输入至获取的目标NTM模型,得到主题特征向量;将所述单词特征向量、所述句子特征向量、所述主题特征向量及各单词的词频逆文档频率值输入到获取的目标文本摘要生成模型,生成目标文本摘要。2.根据权利要求1所述的方法,其特征在于,所述目标文本摘要生成模型包括依次连接的目标NTM模型、异构图模型、GAT模型和目标句子分类模型。3.根据权利要求2所述的方法,其特征在于,将所述单词特征向量、所述句子特征向量、所述主题特征向量及各单词的词频逆文档频率值输入到获取的目标文本摘要生成模型,生成目标文本摘要,包括:将所述单词特征向量、所述句子特征向量、所述主题特征向量及各单词的词频逆文档频率值输入至所述异构图模型,构建多语义粒度异构图;将所述多语义粒度异构图输入至所述GAT模型,以获取更新后的句子特征向量;将所述更新后的句子特征向量输入至所述目标句子分类模型,以对所述目标源文档中句子进行分类,生成所述目标文本摘要。4.根据权利要求3所述的方法,其特征在于,获取目标文本摘要生成模型,包括:获取源文档数据集并对所述源文档数据集进行预处理,得到处理后的源文档内容和处理后的源文档标签;对处理后的源文档内容以预设比例划分,得到训练集和测试集;根据所述训练集分别确定训练单词特征向量、权重特征向量及训练句子特征向量;获取预训练NTM模型,并根据所述预训练NTM模型得到训练主题特征向量;将所述训练单词特征向量、所述权重特征向量、所述训练句子特征向量及所述训练主题特征向量输入至所述异构图模型,构建训练多语义粒度异构图;将所述训练多语义粒度异构图输入至所述GAT模型,依次更新所述训练句子特征向量、所述训练单词特征向量及所述训练主题特征向量;根据更新后的训练句子特征向量和处理后的文档标签,确定句子分类交叉熵损失值;确定所述预训练NTM模型对应的主题分布交叉熵损失值;将所述主题分布交叉熵损失值和所述句子分类交叉熵损失值联合组成文本摘要生成损失值,并利用Adam优化器最小化所述文本摘要生成损失值,得到初始文本摘要生成模型;利用所述测试集对所述初始文本摘要生成模型进行测试,直至抽取精度达到预设阈值精度,得到所述目标文本摘...
【专利技术属性】
技术研发人员:王梦圆,
申请(专利权)人:湖南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。