【技术实现步骤摘要】
一种文本摘要评价方法、装置以及存储介质
[0001]本专利技术主要涉及语言处理
,具体涉及一种文本摘要评价方法、装置以及存储介质。
技术介绍
[0002]随着互联网技术的发展,文字信息在网络中成迅速增加。为了使用户获取文字信息的关键内容,文本生成技术应用而生例如摘要生成,它能够根据原文生成对应的摘要,而生成的摘要是否能够表达原文的本意就需要应用评价方法去实现。评价方法主要分为人工评价和自动评价。虽然人工评价相较于自动评价更灵活且合理,但是它费时费力。因此,自动评价方法应用而生,例如ROUGE和BLUE评价方法。但是,这些评价方法只利用生成摘要与参考摘要之间的共现信息,没有考虑它们之间的语义信息且制作参考摘要费时费力,因此,这些原因都导致此评价方法不适合于文本生成的评价。
技术实现思路
[0003]本专利技术所要解决的技术问题是针对现有技术的不足,提供一种文本摘要评价方法、装置以及存储介质。
[0004]本专利技术解决上述技术问题的技术方案如下:一种文本摘要评价方法,包括如下步骤:
[0005]导入多个原始中文文本,分别对各个所述原始中文文本进行预处理,得到与各个所述中文文本对应的处理后文本;
[0006]对所有的原始中文文本和所有的处理后文本进行摘要关键信息覆盖率的分析,得到与各个所述原始中文文本对应的摘要关键信息覆盖率、与各个所述原始中文文本对应的原始文本摘要概率分布以及与各个所述处理后文本对应的处理后文本摘要概率分布;
[0007]分别对各个所述摘要关键信息覆 ...
【技术保护点】
【技术特征摘要】
1.一种文本摘要评价方法,其特征在于,包括如下步骤:导入多个原始中文文本,分别对各个所述原始中文文本进行预处理,得到与各个所述中文文本对应的处理后文本;对所有的原始中文文本和所有的处理后文本进行摘要关键信息覆盖率的分析,得到与各个所述原始中文文本对应的摘要关键信息覆盖率、与各个所述原始中文文本对应的原始文本摘要概率分布以及与各个所述处理后文本对应的处理后文本摘要概率分布;分别对各个所述摘要关键信息覆盖率、与各个所述原始中文文本对应的原始文本摘要概率分布以及与各个所述处理后文本对应的处理后文本摘要概率分布进行评价分数的计算,得到与各个所述原始中文文本对应的评价分数,并分别将各个所述评价分数作为各个所述原始中文文本的文本摘要评价结果。2.根据权利要求1所述的文本摘要评价方法,其特征在于,所述分别对各个所述原始中文文本进行预处理,得到与各个所述中文文本对应的处理后文本的过程包括:分别对各个所述原始中文文本中的单词进行随机删除,得到与各个所述中文文本对应的删除后文本;基于BERT语言模型分别对各个所述删除后文本进行单词填空,得到与各个所述中文文本对应的处理后文本。3.根据权利要求1所述的文本摘要评价方法,其特征在于,所述对所有的原始中文文本和所有的处理后文本进行摘要关键信息覆盖率的分析,得到与各个所述原始中文文本对应的摘要关键信息覆盖率、与各个所述原始中文文本对应的原始文本摘要概率分布以及与各个所述处理后文本对应的处理后文本摘要概率分布的过程包括:集合所有的原始中文文本得到文档集,并基于BERT语言模型对所述文档集进行文档集的预测,得到文档概率分布;基于BART摘要模型分别对各个所述原始中文文本进行原始中文文本的预测,得到与各个所述原始中文文本对应的原始文本摘要概率分布;基于所述BART摘要模型分别对各个所述处理后文本进行处理后文本概率分布的预测,得到与各个所述处理后文本对应的处理后文本摘要概率分布;根据所述文档概率分布分别对各个所述原始文本摘要概率分布进行第一共现文本的计算,得到与各个所述原始中文文本对应的第一共现文本;根据所述文档概率分布分别对各个所述处理后文本摘要概率分布进行第二共现文本的计算,得到与各个所述原始中文文本对应的第二共现文本;对所有的第一共现文本和所有的第二共现文本进行文档覆盖率的计算,得到文档覆盖率;根据所述文档覆盖率对各个所述原始文本摘要概率分布以及与各个所述原始中文文本对应的处理后文本摘要概率分布进行摘要关键信息覆盖率的计算,得到与各个所述原始中文文本对应的摘要关键信息覆盖率。4.根据权利要求3所述的文本摘要评价方法,其特征在于,所述根据所述文档概率分布分别对各个所述原始文本摘要概率分布进行第一共现文本的计算,得到与各个所述原始中文文本对应的第一共现文本的过程包括:通过第一式分别对所述文档概率分布以及与各个所述原始中文文本对应的原始文本
摘要概率分布进行第一共现文本的计算,得到与各个所述原始中文文本对应的第一共现文本,所述第一式为:其中,c~N(0,1),其中,coverage(p
φ|T
(.|x
i
;ω;L),p
φ|K
(.|D;ω;W))为第i个原始文本摘要对应的第一共现文本,c为关键共现片段分布,p
φ|K
(.|D;ω;W)为文档概率分布,p
φ|T
(.|x
i
;ω;L)为第i个原始中文文本对应的原始文本摘要概率分布,|.|为共现片段长度,L为调节参数,为词表大小,N(0,1)为均值等于1,方差等于1的正太分布。5.根据权利要求3所述的文本摘要评价方法,其特征在于,所述根据所述文档概率分布分别对各个所述处理后文本摘要概率分布进行第二共现文本的计算,得到与各个所述原始中文文本对应的第二共现文本的过程包括:通过第二式分别对所述文档概率分布以及与各个所述处理后文本对应的处理后文本摘要概率分布进行第二共现文本的计算,得到与各个所述原始中文文本对应的第二共现文本,所述第二式为:其中,c~N(0,1),其中,为第i个处理后文本对应的第二共现文本,c为关键共现片段分布,p
φ|K
(.|D;ω;W)为文档概率分布,为第i个处理后文本对应的处理后文本摘要概率分布,|.|为共现片段长度,L为调节参数,为词表大小,N(0,1)为均值等于1,方差等于1的正太分布。6.根据权利要求3所述的文本摘要评价方法,其特征在于,所述...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。