一种支持文本语义查重查新的评估指标体系模型构建方法技术

技术编号：41844248 阅读：4 留言：0更新日期：2024-06-27 18:23

本申请提供了一种支持文本语义查重查新的评估指标体系模型构建方法，涉及信息检索技术领域，该方法包括：构建送检文本的送检词袋模型与对比文本的对比词袋模型；基于相似度概率分布降维得到目标送检和目标对比模型；若模型相似度达到预定相似阈值，则将对比文本添加至候选对比库；对送检文本与第一对比文本进行查重分析得到第一查重率；进行查新分析得到第一查新率；加权得到第一查重查新评估指数。通过本申请可以解决由于无法快速确定查重查新关键比对文本及比对指标，导致查重查新比对分析的精准度较差，造成查重查新评估的准确性和全面性较差，同时评估效率较低的技术问题，可以达到提高查重查新评估的准确性、全面性和效率的技术效果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及信息检索，尤其涉及一种支持文本语义查重查新的评估指标体系模型构建方法。

技术介绍

1、近年来，随着深度学习等机器学习技术的快速发展，文本语义查重查新的性能得到了进一步提升，深度学习模型能够自动学习文本的特征和规律，从而更好地理解文本的语义和上下文信息，使得系统能够更准确地判断文本的相似性和前沿性，提高了查重查新的准确性。

2、目前，文本语义查重查新时，由于文本数据量大，同时比对文本较多，现有方法无法快速准确确定关键比对文本及关键比对指标，导致查重查新比对分析的精准度较差，且需要耗费大量比对分析时间，造成查重查新评估的准确性和全面性较差，同时评估效率较低的技术问题。

技术实现思路

1、本申请的目的是提供一种支持文本语义查重查新的评估指标体系模型构建方法，用以解决现有文本语义查重查新评估方法，由于无法快速确定查重查新关键比对文本及比对指标，导致查重查新比对分析的精准度较差，造成查重查新评估的准确性和全面性较差，同时评估效率较低的技术问题。

2、鉴于上述问题，本申请提供了一种支持文本语义查重查新的评估指标体系模型构建方法。

3、第一方面，本申请提供了一种支持文本语义查重查新的评估指标体系模型构建方法，所述方法通过一种支持文本语义查重查新的评估指标体系模型构建系统实现，其中，所述方法包括：分别构建送检文本的初始送检词袋模型与对比文本的初始对比词袋模型；读取预定相似度概率分布，并基于所述预定相似度概率分布分别降维得到所述初始送检词袋模型的目标送检

4、第二方面，本申请还提供了一种支持文本语义查重查新的评估指标体系模型构建系统，用于执行如第一方面所述的一种支持文本语义查重查新的评估指标体系模型构建方法，其中，所述系统包括：初始词袋模型构建模块，所述初始词袋模型构建模块用于分别构建送检文本的初始送检词袋模型与对比文本的初始对比词袋模型；目标词袋模型得到模块，所述目标词袋模型得到模块用于读取预定相似度概率分布，并基于所述预定相似度概率分布分别降维得到所述初始送检词袋模型的目标送检词袋模型和所述初始对比词袋模型的目标对比词袋模型；对比文本添加模块，所述对比文本添加模块用于若所述目标送检词袋模型与所述目标对比词袋模型的模型相似度达到预定相似阈值，则将所述对比文本添加至候选对比库，其中，所述候选对比库存储于评估指标体系模型；查重分析模块，所述查重分析模块用于通过所述评估指标体系模型中的查重评估通道对所述送检文本与所述候选对比库中的第一对比文本进行查重分析，得到第一查重率；查新分析模块，所述查新分析模块用于通过所述评估指标体系模型中的查新评估通道对所述送检文本与所述第一对比文本进行查新分析，得到第一查新率；查重查新评估指数得到模块，所述查重查新评估指数得到模块用于对归一化处理后的所述第一查重率与所述第一查新率进行加权分析，得到第一查重查新评估指数，所述第一查重查新评估指数用于表征所述送检文本与所述第一对比文本的查重查新评估结果。

5、第三方面，本申请还提供了一种电子设备，包括：

6、至少一个处理器；

7、与所述至少一个处理器通信连接的存储器；

8、其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述第一方面中任意一项所述方法的步骤。

9、本申请中提供的一个或多个技术方案，至少具有如下技术效果或优点：

10、1.通过分别构建送检文本的初始送检词袋模型与对比文本的初始对比词袋模型；读取预定相似度概率分布，并基于所述预定相似度概率分布分别降维得到所述初始送检词袋模型的目标送检词袋模型和所述初始对比词袋模型的目标对比词袋模型；若所述目标送检词袋模型与所述目标对比词袋模型的模型相似度达到预定相似阈值，则将所述对比文本添加至候选对比库，其中，所述候选对比库存储于评估指标体系模型；通过所述评估指标体系模型中的查重评估通道对所述送检文本与所述候选对比库中的第一对比文本进行查重分析，得到第一查重率；通过所述评估指标体系模型中的查新评估通道对所述送检文本与所述第一对比文本进行查新分析，得到第一查新率；对归一化处理后的所述第一查重率与所述第一查新率进行加权分析，得到第一查重查新评估指数，所述第一查重查新评估指数用于表征所述送检文本与所述第一对比文本的查重查新评估结果，也就是说，通过基于预定相似度概率分布函数对初始送检词袋模型和初始对比词袋模型进行降维，得到目标送检词袋模型和目标对比词袋模型；接着对所述目标送检词袋模型与所述目标对比词袋模型的模型相似度进行判断，并将满足预定相似阈值的目标对比词袋模型的对比文本添加至评估指标体系模型的候选对比库；进一步基于评估指标体系模型中的查重评估通道对送检文本与候选对比库中的对比文本进行查重分析，得到第一查重率；基于查新评估通道对送检文本与对比文本进行查新分析，得到第一查新率；最后加权计算归一化处理后的第一查重率与第一查新率，得到第一查重查新评估指数，可以提高查重查新关键比对文本及比对指标设置的精准度和效率，实现快速准确查重查新比对分析的技术目标，达到提高查重查新评估的准确性、全面性和效率的技术效果。

11、2.通过构建预定相似度概率分布函数对初始送检词袋模型和初始对比词袋模型进行降维，可以在保留模型关键信息的前提下，去除冗余的特征和噪声，提高模型降维的准确性和全面性，同时提高模型降维效率。

12、上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其他目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其他特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种支持文本语义查重查新的评估指标体系模型构建方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述预定相似度概率分布的表达式如下：

3.根据权利要求1所述的方法，其特征在于，所述候选对比库的获取过程，包括：

4.根据权利要求3所述的方法，其特征在于，所述第一查重率的得到过程，包括：

5.根据权利要求4所述的方法，其特征在于，所述预处理方案包括剔除预处理和去重预处理，所述剔除预处理是指对文本中的停用词进行剔除，所述去重预处理是指对文本中的重复词进行去重。

6.根据权利要求4所述的方法，其特征在于，所述第一查新率的得到过程，包括：

7.根据权利要求6所述的方法，其特征在于，所述第一复筛评估库的组建过程，包括：

8.根据权利要求6所述的方法，其特征在于，所述预定蒸馏损失函数的表达式如下：

9.一种支持文本语义查重查新的评估指标体系模型构建系统，其特征在于，用于实施权利要求1至8中任意一项所述方法的步骤，包括：

10.一种电子设备，包括：

【技术特征摘要】

1.一种支持文本语义查重查新的评估指标体系模型构建方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述预定相似度概率分布的表达式如下：

3.根据权利要求1所述的方法，其特征在于，所述候选对比库的获取过程，包括：

4.根据权利要求3所述的方法，其特征在于，所述第一查重率的得到过程，包括：

5.根据权利要求4所述的方法，其特征在于，所述预处理方案包括剔除预处理和去重预处理，所述剔除预处理是指对文本中的停用词进行剔除，所述...

【专利技术属性】
技术研发人员：叶志飞，张智雄，李涵昱，王猛，刘熠，
申请(专利权)人：中国科学院文献情报中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人