当前位置: 首页 > 专利查询>湖南大学专利>正文

一种基于句级评估的文本摘要生成方法和系统技术方案

技术编号:26171165 阅读:41 留言:0更新日期:2020-10-31 13:42
本发明专利技术公开了一种基于句级评估的文本摘要生成方法,包括:获取论文数据集,并对论文数据集中的每个论文进行预处理,所有预处理后的论文构成预处理后的论文数据集,将预处理后的论文数据集输入训练好的基于句级评估的文本摘要生成模型中,以得到论文数据集中每个论文对应的文本摘要。本发明专利技术能够解决现有生成式文本摘要技术采用的指针生成模型不能很好地处理生成方向偏离问题,导致错误积累的技术问题,以及指针生成模型不能很好地关注到重要信息的技术问题,以及现有生成式文本摘要技术采用的强化学习机制容易导致生成的摘要不可读的技术问题,以及强化学习机制会导致模型关注重要信息的能力有所下降的技术问题。

【技术实现步骤摘要】
一种基于句级评估的文本摘要生成方法和系统
本专利技术属于自然语言处理中的文本摘要
,更具体地,涉及一种基于句级评估的文本摘要生成方法和系统。
技术介绍
文本摘要技术包括抽取式文本摘要技术以及生成式文本摘要技术。其中,抽取式文本摘要技术是通过抽取文本的前三行(Lead-3)或者利用TextRank图、聚类等方法从论文中提取出重要且能概况论文信息的句子(一般是直接提取整个句子),该技术虽然提取语言的可读性比较高,但是因不能高度概括一个句子,会导致生成的摘要包括很多不重要信息,产生的文本过于冗余;生成式文本摘要技术是让机器学习人类的思维方式,利用神经网络的各种变形方法训练模型,通过学习文本内容让机器在每一时间步生成一些新颖的单词,使生成的摘要更加凝练简洁。生成式文本摘要技术广泛被应用的是序列到序列(Sequencetosequence,简称Seq2Seq)模型,早期的Seq2Seq模型存在词表溢出和重复性关注同一个单词或者句子问题;如今,Seq2Seq模型主要采用See等人于2017年提出的指针生成模型,通过在基于注意力的Seq2Seq模型上增加可以从论文复制词表以外的单词和覆盖(Coverage)机制,有效的缓解了早期Seq2Seq模型存在的词表溢出和重复性问题。后来,Paulus等人于2017年提出了强化学习机制,其在现有框架的基础上使用解码器注意机制结合强化学习生成质量更高的摘要,该方法利用强化学习机制对模型生成的摘要进行全局性监督,再配合词级监督机制,在缓解指针生成等模型“教师强迫”问题的同时不忽略句子的语法问题。上述两种生成式文本摘要方法分别从模型的角度和训练方法的角度对网络模型进行了改进,但是它们仍然存在一些不可忽略的技术问题:第一,指针生成模型采用“教师强迫”算法,在训练和测试之间存在“暴漏偏差”,使得模型不能很好地处理生成方向偏离问题,导致错误积累;第二,指针生成模型采用词级监督,在训练过程中,固定地将生成的每个单词与同一位置的参考摘要单词进行比较,计算交叉熵损失函数,忽略了潜在正确的可能性,导致模型不能很好地关注到重要信息;第三,强化学习机制在整个摘要层面进行监督,忽略了文本之间的语法问题,导致生成的摘要不可读;第四,强化学习机制在整个摘要层面上又结合了词级监督,在提高文本可读性的同时导致模型关注重要信息的能力有所下降。总而言之,上述两种方法有一个共同问题,即关注文本重要信息的能力不足,没能在语句可读性和总结文本关键内容上达到很好地兼容。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术提供了一种基于句级评估的文本摘要生成方法和系统,其目的在于,解决现有生成式文本摘要技术采用的指针生成模型不能很好地处理生成方向偏离问题,导致错误积累的技术问题,以及指针生成模型不能很好地关注到重要信息的技术问题,以及现有生成式文本摘要技术采用的强化学习机制容易导致生成的摘要不可读的技术问题,以及强化学习机制会导致模型关注重要信息的能力有所下降的技术问题。为实现上述目的,按照本专利技术的一个方面,提供了一种基于句级评估的文本摘要生成方法,包括以下步骤:一、获取论文数据集,并对论文数据集中的每个论文进行预处理,所有预处理后的论文构成预处理后的论文数据集;二、将步骤一预处理后的论文数据集输入训练好的基于句级评估的文本摘要生成模型中,以得到论文数据集中每个论文对应的文本摘要。优选地,基于句级评估的文本摘要生成模型采用的是基于注意力机制的序列到序列模型。优选地,指针生成模型是通过以下步骤训练得到的:(1)获取论文数据集;(2)对步骤(1)得到的论文数据集中的所有论文进行逐篇解析,以得到xml格式的论文数据集;(3)对步骤(2)得到的论文数据集的每个论文分别进行预处理,所有预处理后的论文构成更新后的论文数据集(X,Y),其中X表示更新后论文数据集的输入序列,Y表示该输入序列对应的参考摘要句子序列;(4)将步骤(3)得到的更新后的论文数据集中的所有论文依次输入到LSTM编码器,以得到与每个论文xu对应的编码器隐藏状态序列hu={hu,1,hu,2,…,hu,l},其中,编码器隐藏状态序列中的最后一个编码器隐藏状态hu,l作为论文xu对应的LSTM解码器的初始隐藏状态su,0,l表示长度阈值,u∈[1,Num],Num表示论文数据集中论文的总数;(5)根据步骤(4)得到的编码器隐藏状态序列hu得到t时刻论文xu中第i个单词的注意力权值以及t时刻论文xu中第i个单词的注意力分布其中i∈[1,l];(6)根据步骤(5)得到的t时刻论文xu中第i个单词的注意力分布获得t时刻论文xu中第i个单词的覆盖值(7)根据步骤(6)得到的t时刻论文xu中第i个单词的覆盖值对t时刻论文xu中第i个单词的注意力权值和t时刻论文xu中第i个单词的注意力分布进行更新;(8)根据步骤(7)更新后的t时刻论文xu中第i个词的注意力权值和步骤(6)得到的t时刻论文xu中第i个单词的覆盖值获得t时刻论文xu受到的覆盖损失covlossu,t;(9)根据步骤(4)得到的论文xu中第i个单词的编码器隐藏状态hu,i和步骤(7)更新后的t时刻论文xu中第i个单词的注意力分布获得论文xu对应的上下文向量(10)根据t-1时刻论文xu对应的LSTM解码器的隐藏状态su,t-1、以及步骤(9)得到的论文xu对应的上下文向量获取t时刻论文xu对应的LSTM解码器隐藏状态su,t:(11)将步骤(9)得到的论文xu对应的上下文向量和步骤(10)得到的t时刻论文xu对应的解码器隐藏状态su,t连接,并输入LSTM编码器的两个线性层中,以得到t时刻论文xu对应的词汇表中所有单词的概率分布(12)根据步骤(9)得到的论文xu对应的上下文向量以及步骤(10)得到的t时刻论文xu对应的解码器隐藏状态su,t获得t时刻论文xu对应的生成概率(13)根据步骤(11)得到的t时刻论文xu对应的词汇表中所有单词的概率分布步骤(12)得到的t时刻论文xu对应的生成概率以及步骤(7)得到的t时刻论文xu中第i个单词的注意力分布获得t时刻论文xu对应的扩展词汇表中每个单词w的概率分布Pu(w)。(14)从步骤(13)得到的t时刻论文xu对应的扩展词汇表中所有单词的概率分布中获取最大概率值Pu(yu,t)及其对应的单词yu,t,并将单词yu,t存储在预先设置的句子序列Sg(g的初始值为0)中,判断时刻t的值是否等于预设的最大解码时间步T,如果是,进入步骤(18),否则,进入步骤(15);(15)判断步骤(14)中获取的单词yu,t是否是“.”,如果是,进入步骤(16),否则进入步骤(19);(16)使用ROUGE评分指标计算步骤(14)得到的句子序列Sg与论文xu对应的参考摘要句子序列中每一个参考摘要句子之间的匹配度,从中选取最大匹配度作为模型对该句子序列Sg的奖励得分R(Sg),然后设置g=g+1,本文档来自技高网
...

【技术保护点】
1.一种基于句级评估的文本摘要生成方法,其特征在于,包括以下步骤:/n一、获取论文数据集,并对论文数据集中的每个论文进行预处理,所有预处理后的论文构成预处理后的论文数据集;二、将步骤一预处理后的论文数据集输入训练好的基于句级评估的文本摘要生成模型中,以得到论文数据集中每个论文对应的文本摘要。/n

【技术特征摘要】
1.一种基于句级评估的文本摘要生成方法,其特征在于,包括以下步骤:
一、获取论文数据集,并对论文数据集中的每个论文进行预处理,所有预处理后的论文构成预处理后的论文数据集;二、将步骤一预处理后的论文数据集输入训练好的基于句级评估的文本摘要生成模型中,以得到论文数据集中每个论文对应的文本摘要。


2.根据权利要求1所述的基于句级评估的文本摘要生成方法,其特征在于,基于句级评估的文本摘要生成模型采用的是基于注意力机制的序列到序列模型。


3.根据权利要求1或2所述的基于句级评估的文本摘要生成方法,其特征在于,指针生成模型是通过以下步骤训练得到的:
(1)获取论文数据集;
(2)对步骤(1)得到的论文数据集中的所有论文进行逐篇解析,以得到xml格式的论文数据集;
(3)对步骤(2)得到的论文数据集的每个论文分别进行预处理,所有预处理后的论文构成更新后的论文数据集(X,Y),其中X表示更新后论文数据集的输入序列,Y表示该输入序列对应的参考摘要句子序列;
(4)将步骤(3)得到的更新后的论文数据集中的所有论文依次输入到LSTM编码器,以得到与每个论文xu对应的编码器隐藏状态序列hu={hu,1,hu,2,…,hu,l},其中,编码器隐藏状态序列中的最后一个编码器隐藏状态hu,l作为论文xu对应的LSTM解码器的初始隐藏状态su,0,l表示长度阈值,u∈[1,Num],Num表示论文数据集中论文的总数;
(5)根据步骤(4)得到的编码器隐藏状态序列hu得到t时刻论文xu中第i个单词的注意力权值以及t时刻论文xu中第i个单词的注意力分布其中i∈[1,l];
(6)根据步骤(5)得到的t时刻论文xu中第i个单词的注意力分布获得t时刻论文xu中第i个单词的覆盖值
(7)根据步骤(6)得到的t时刻论文xu中第i个单词的覆盖值对t时刻论文xu中第i个单词的注意力权值和t时刻论文xu中第i个单词的注意力分布进行更新;
(8)根据步骤(7)更新后的t时刻论文xu中第i个单词的注意力权值和步骤(6)得到的t时刻论文xu中第i个单词的覆盖值获得t时刻论文xu受到的覆盖损失covlossu,t;
(9)根据步骤(4)得到的论文xu中第i个单词的编码器隐藏状态hu,i和步骤(7)更新后的t时刻论文xu中第i个单词的注意力分布获得论文xu对应的上下文向量
(10)根据t-1时刻论文xu对应的LSTM解码器的隐藏状态su,t-1、以及步骤(9)得到的论文xu对应的上下文向量获取t时刻论文xu对应的LSTM解码器隐藏状态su,t:
(11)将步骤(9)得到的论文xu对应的上下文向量和步骤(10)得到的t时刻论文xu对应的解码器隐藏状态su,t连接,并输入LSTM编码器的两个线性层中,以得到t时刻论文xu对应的词汇表中所有单词的概率分布
(12)根据步骤(9)得到的论文xu对应的上下文向量以及步骤(10)得到的t时刻论文xu对应的解码器隐藏状态su,t获得t时刻论文xu对应的生成概率
(13)根据步骤(11)得到的t时刻论文xu对应的词汇表中所有单词的概率分布步骤(12)得到的t时刻论文xu对应的生成概率以及步骤(7)得到的t时刻论文xu中第i个单词的注意力分布获得t时刻论文xu对应的扩展词汇表中每个单词w的概率分布Pu(w);
(14)从步骤(13)得到的t时刻论文xu对应的扩展词汇表中所有单词的概率分布中获取最大概率值Pu(yu,t)及其对应的单词yu,t,并将单词yu,t存储在预先设置的句子序列Sg(g的初始值为0)中,判断时刻t的值是否等于预设的最大解码时间步T,如果是,进入步骤(18),否则,进入步骤(15);
(15)判断步骤(14)中获取的单词yu,t是否是“.”,如果是,进入步骤(16),否则进入步骤(19);
(16)使用ROUGE评分指标计算步骤(14)得到的句子序列Sg与论文xu对应的参考摘要句子序列中每一个参考摘要句子之间的匹配度,从中选取最大匹配度作为模型对该句子序列Sg的奖励得分R(Sg),然后设置g=g+1,其中,m表示该参考摘要句子序列中句子的总数;
(17)根据步骤(16)得到的R(Sg)、以及步骤(14)得到的最大概率值Pu(yu,t)生成句子序列Sg的损失函数L(Sg):
(18)根据步骤(17)得到的句子序列Sg的损失函数计算t=T时,模型为论文xu生成摘要的句级损失L(yu):
(19)根据步骤(8)得到的t时刻论文xu受到的覆盖损失covlossu,t获取t=T时,模型为论文xu生成摘要的总覆盖损失Lc(yu):
(20)根据步骤(18)得到的模型为论文xu生成摘要的句级损失和步骤(19)得到的模型为论文xu生成摘要的总覆盖损失,得到论文xu生成摘要yu的复合损失函数Lmixed(yu);
(21)根据步骤(20)得到的论文xu生成摘要yu的复合损失函数对基于句级评估的生成模型进行训练,以得到训练后的基于句级评估的生成模型;
(22)重复上述步骤(4)到(21)达预设迭代次数,过程结束。


4.根据权利要求1至3中任意一项所述的基于句级评估的文本摘要生成方法,其特征在于,对步骤(1)得到的论文数据集中的每篇论文进行解析这一过程具体包括以下子步骤:
(2-1)利用PDFTron工具读取论文的全部内容,并初始化计数器page=1,单词存储变量temp为空,全局标签flag=1;
(2-2)判断page是否大于论文的总页数,如果是,则过程结束,否则进入步骤(2-3);
(2-3)设置计数器line=1;
(2-4)判断line是否大于论文中第page页的总行数,如果是,则进入步骤(2-5),否则进入步骤(2-6);
(2-5)计数器p...

【专利技术属性】
技术研发人员:胡逸鲲张小瑞何黎刚陈浩李肯立
申请(专利权)人:湖南大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1