一种文本摘要评价方法、装置以及存储介质制造方法及图纸

技术编号:35301553 阅读:27 留言:0更新日期:2022-10-22 12:50
本发明专利技术提供一种文本摘要评价方法、装置以及存储介质,属于语言处理领域,方法包括:对原始中文文本进行预处理得到处理后文本;对所有的原始中文文本和所有的处理后文本进行摘要关键信息覆盖率的分析得到摘要关键信息覆盖率、原始文本摘要概率分布以及处理后文本摘要概率分布;对摘要关键信息覆盖率、原始文本摘要概率分布以及处理后文本摘要概率分布进行评价分数的计算得到文本摘要评价结果。本发明专利技术能够更加合理地评价生成摘要,且评价结果更加接近人工评价,从而使评价内容更灵活且合理。从而使评价内容更灵活且合理。从而使评价内容更灵活且合理。

【技术实现步骤摘要】
一种文本摘要评价方法、装置以及存储介质


[0001]本专利技术主要涉及语言处理
,具体涉及一种文本摘要评价方法、装置以及存储介质。

技术介绍

[0002]随着互联网技术的发展,文字信息在网络中成迅速增加。为了使用户获取文字信息的关键内容,文本生成技术应用而生例如摘要生成,它能够根据原文生成对应的摘要,而生成的摘要是否能够表达原文的本意就需要应用评价方法去实现。评价方法主要分为人工评价和自动评价。虽然人工评价相较于自动评价更灵活且合理,但是它费时费力。因此,自动评价方法应用而生,例如ROUGE和BLUE评价方法。但是,这些评价方法只利用生成摘要与参考摘要之间的共现信息,没有考虑它们之间的语义信息且制作参考摘要费时费力,因此,这些原因都导致此评价方法不适合于文本生成的评价。

技术实现思路

[0003]本专利技术所要解决的技术问题是针对现有技术的不足,提供一种文本摘要评价方法、装置以及存储介质。
[0004]本专利技术解决上述技术问题的技术方案如下:一种文本摘要评价方法,包括如下步骤:
[0005]导入多个原始中文文本,分别对各个所述原始中文文本进行预处理,得到与各个所述中文文本对应的处理后文本;
[0006]对所有的原始中文文本和所有的处理后文本进行摘要关键信息覆盖率的分析,得到与各个所述原始中文文本对应的摘要关键信息覆盖率、与各个所述原始中文文本对应的原始文本摘要概率分布以及与各个所述处理后文本对应的处理后文本摘要概率分布;
[0007]分别对各个所述摘要关键信息覆盖率、与各个所述原始中文文本对应的原始文本摘要概率分布以及与各个所述处理后文本对应的处理后文本摘要概率分布进行评价分数的计算,得到与各个所述原始中文文本对应的评价分数,并分别将各个所述评价分数作为各个所述原始中文文本的文本摘要评价结果。
[0008]本专利技术解决上述技术问题的另一技术方案如下:一种文本摘要评价装置,包括:
[0009]预处理模块,用于导入多个原始中文文本,分别对各个所述原始中文文本进行预处理,得到与各个所述中文文本对应的处理后文本;
[0010]覆盖率分析模块,用于对所有的原始中文文本和所有的处理后文本进行摘要关键信息覆盖率的分析,得到与各个所述原始中文文本对应的摘要关键信息覆盖率、与各个所述原始中文文本对应的原始文本摘要概率分布以及与各个所述处理后文本对应的处理后文本摘要概率分布;
[0011]摘要评价结果获得模块,用于分别对各个所述摘要关键信息覆盖率、与各个所述原始中文文本对应的原始文本摘要概率分布以及与各个所述处理后文本对应的处理后文
本摘要概率分布进行评价分数的计算,得到与各个所述中文文本对应的评价分数,并分别将各个所述评价分数作为各个所述原始中文文本的文本摘要评价结果。
[0012]本专利技术解决上述技术问题的另一技术方案如下:一种文本摘要评价装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,当所述处理器执行所述计算机程序时,实现如上所述的文本摘要评价方法。
[0013]本专利技术解决上述技术问题的另一技术方案如下:一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的文本摘要评价方法。
[0014]本专利技术的有益效果是:通过对原始中文文本的预处理得到处理后文本,对原始中文文本和处理后文本的摘要关键信息覆盖率分析得到摘要关键信息覆盖率、原始文本摘要概率分布以及处理后文本摘要概率分布,对摘要关键信息覆盖率、原始文本摘要概率分布以及处理后文本摘要概率分布的评价分数计算得到文本摘要评价结果,能够更加合理地评价生成文本,且评价结果更加接近人工评价,从而使评价内容更灵活且合理。
附图说明
[0015]图1为本专利技术实施例提供的一种文本摘要评价方法的流程示意图;
[0016]图2为本专利技术实施例提供的一种文本摘要评价装置的模块框图。
具体实施方式
[0017]以下结合附图对本专利技术的原理和特征进行描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。
[0018]图1为本专利技术实施例提供的一种文本摘要评价方法的流程示意图。
[0019]如图1所示,一种文本摘要评价方法,包括如下步骤:
[0020]导入多个原始中文文本,分别对各个所述原始中文文本进行预处理,得到与各个所述中文文本对应的处理后文本;
[0021]对所有的原始中文文本和所有的处理后文本进行摘要关键信息覆盖率的分析,得到与各个所述原始中文文本对应的摘要关键信息覆盖率、与各个所述原始中文文本对应的原始文本摘要概率分布以及与各个所述处理后文本对应的处理后文本摘要概率分布;
[0022]分别对各个所述摘要关键信息覆盖率、与各个所述原始中文文本对应的原始文本摘要概率分布以及与各个所述处理后文本对应的处理后文本摘要概率分布进行评价分数的计算,得到与各个所述原始中文文本对应的评价分数,并分别将各个所述评价分数作为各个所述原始中文文本的文本摘要评价结果。
[0023]应理解地,在互联网上爬去360万中文文章片段(即多个所述原始中文文本)。
[0024]上述实施例中,通过对原始中文文本的预处理得到处理后文本,对原始中文文本和处理后文本的摘要关键信息覆盖率分析得到摘要关键信息覆盖率、原始文本摘要概率分布以及处理后文本摘要概率分布,对摘要关键信息覆盖率、原始文本摘要概率分布以及处理后文本摘要概率分布的评价分数计算得到文本摘要评价结果,能够更加合理地评价生成文本,且评价结果更加接近人工评价,从而使评价内容更灵活且合理。
[0025]可选地,作为本专利技术的一个实施例,所述分别对各个所述原始中文文本进行预处
理,得到与各个所述中文文本对应的处理后文本的过程包括:
[0026]分别对各个所述原始中文文本中的单词进行随机删除,得到与各个所述中文文本对应的删除后文本;
[0027]基于BERT语言模型分别对各个所述删除后文本进行单词填空,得到与各个所述中文文本对应的处理后文本。
[0028]应理解地,所述BERT语言模型能够遮盖文章中的一些词然后进行完成填空且能够判断两句话之间的上下文关系。
[0029]应理解地,利用扰动方式生成文章对(即所述原始中文文本以及与各个所述中文文本对应的处理后文本)。
[0030]应理解地,训练预训练语言模型(即所述BERT语言模型)用于摘要评价。
[0031]应理解地,所述单词填空即对空缺的单词位置进行填空。
[0032]具体地,扰动方式的步骤为:随机遮盖原文章(即所述原始中文文本),然后利用预训练好的模型(即所述BERT语言模型)进行填空,这样能够获得语义接近单用细不同的文章。可以理解为:将文章(即所述原始中文文本)中的单词随机丢弃进而生成文章对,利用现有的文本生成模型产生摘要和文档对。
[0033]上述实施例中,对原始中文文本中单词的随机删除得到删除后文本,基于BER本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本摘要评价方法,其特征在于,包括如下步骤:导入多个原始中文文本,分别对各个所述原始中文文本进行预处理,得到与各个所述中文文本对应的处理后文本;对所有的原始中文文本和所有的处理后文本进行摘要关键信息覆盖率的分析,得到与各个所述原始中文文本对应的摘要关键信息覆盖率、与各个所述原始中文文本对应的原始文本摘要概率分布以及与各个所述处理后文本对应的处理后文本摘要概率分布;分别对各个所述摘要关键信息覆盖率、与各个所述原始中文文本对应的原始文本摘要概率分布以及与各个所述处理后文本对应的处理后文本摘要概率分布进行评价分数的计算,得到与各个所述原始中文文本对应的评价分数,并分别将各个所述评价分数作为各个所述原始中文文本的文本摘要评价结果。2.根据权利要求1所述的文本摘要评价方法,其特征在于,所述分别对各个所述原始中文文本进行预处理,得到与各个所述中文文本对应的处理后文本的过程包括:分别对各个所述原始中文文本中的单词进行随机删除,得到与各个所述中文文本对应的删除后文本;基于BERT语言模型分别对各个所述删除后文本进行单词填空,得到与各个所述中文文本对应的处理后文本。3.根据权利要求1所述的文本摘要评价方法,其特征在于,所述对所有的原始中文文本和所有的处理后文本进行摘要关键信息覆盖率的分析,得到与各个所述原始中文文本对应的摘要关键信息覆盖率、与各个所述原始中文文本对应的原始文本摘要概率分布以及与各个所述处理后文本对应的处理后文本摘要概率分布的过程包括:集合所有的原始中文文本得到文档集,并基于BERT语言模型对所述文档集进行文档集的预测,得到文档概率分布;基于BART摘要模型分别对各个所述原始中文文本进行原始中文文本的预测,得到与各个所述原始中文文本对应的原始文本摘要概率分布;基于所述BART摘要模型分别对各个所述处理后文本进行处理后文本概率分布的预测,得到与各个所述处理后文本对应的处理后文本摘要概率分布;根据所述文档概率分布分别对各个所述原始文本摘要概率分布进行第一共现文本的计算,得到与各个所述原始中文文本对应的第一共现文本;根据所述文档概率分布分别对各个所述处理后文本摘要概率分布进行第二共现文本的计算,得到与各个所述原始中文文本对应的第二共现文本;对所有的第一共现文本和所有的第二共现文本进行文档覆盖率的计算,得到文档覆盖率;根据所述文档覆盖率对各个所述原始文本摘要概率分布以及与各个所述原始中文文本对应的处理后文本摘要概率分布进行摘要关键信息覆盖率的计算,得到与各个所述原始中文文本对应的摘要关键信息覆盖率。4.根据权利要求3所述的文本摘要评价方法,其特征在于,所述根据所述文档概率分布分别对各个所述原始文本摘要概率分布进行第一共现文本的计算,得到与各个所述原始中文文本对应的第一共现文本的过程包括:通过第一式分别对所述文档概率分布以及与各个所述原始中文文本对应的原始文本
摘要概率分布进行第一共现文本的计算,得到与各个所述原始中文文本对应的第一共现文本,所述第一式为:其中,c~N(0,1),其中,coverage(p
φ|T
(.|x
i
;ω;L),p
φ|K
(.|D;ω;W))为第i个原始文本摘要对应的第一共现文本,c为关键共现片段分布,p
φ|K
(.|D;ω;W)为文档概率分布,p
φ|T
(.|x
i
;ω;L)为第i个原始中文文本对应的原始文本摘要概率分布,|.|为共现片段长度,L为调节参数,为词表大小,N(0,1)为均值等于1,方差等于1的正太分布。5.根据权利要求3所述的文本摘要评价方法,其特征在于,所述根据所述文档概率分布分别对各个所述处理后文本摘要概率分布进行第二共现文本的计算,得到与各个所述原始中文文本对应的第二共现文本的过程包括:通过第二式分别对所述文档概率分布以及与各个所述处理后文本对应的处理后文本摘要概率分布进行第二共现文本的计算,得到与各个所述原始中文文本对应的第二共现文本,所述第二式为:其中,c~N(0,1),其中,为第i个处理后文本对应的第二共现文本,c为关键共现片段分布,p
φ|K
(.|D;ω;W)为文档概率分布,为第i个处理后文本对应的处理后文本摘要概率分布,|.|为共现片段长度,L为调节参数,为词表大小,N(0,1)为均值等于1,方差等于1的正太分布。6.根据权利要求3所述的文本摘要评价方法,其特征在于,所述...

【专利技术属性】
技术研发人员:蔡晓东蒋鹏
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1