System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数据分布均衡优化重分组方法、电子设备及储存介质技术_技高网

数据分布均衡优化重分组方法、电子设备及储存介质技术

技术编号:44568848 阅读:0 留言:0更新日期:2025-03-11 14:27
本发明专利技术公开了一种数据分布均衡优化重分组方法、电子设备及储存介质,根据待优化数据库共有的指标对其进行分组和排序,根据排序结果对待优化数据库再分组以均衡各组数据的分布。本发明专利技术设置的评价得分差异分布,通过使数据集中区域的得分差异更大、数据分散区域的得分差异更小,让得分能更加准确地反映样本的所处地位。

【技术实现步骤摘要】

本专利技术属于数据处理,尤其是涉及一种数据分布均衡优化重分组方法、电子设备及储存介质。


技术介绍

1、如今数据信息飞速发展,自从电子化文件数据进行流通以来,更加方便了研究人员对于某一类技术、某行业的发展等多方面进行深入研究;而在如何评定各种技术或行业发展时,常需要对某些指标进行统计,根据统计结果进行评价。基于特定指标数值的评价能够客观、量化地反映不同客体的实际情况和优劣,有助于提升评价效率、促进公平竞争、指导资源分配,是推动科技进步、提升创新能力和社会管理水平的重要手段。

2、在评价文献
,尤其是评价科专利文献有助于优选高质量资源,提升学术水平。但是,在现有的评价体系中,评价因子多为可统计的数值,由于样本的不确定性,常出现在评价体系中,对被评论对象的评价因子进行换算,得到最终的评价结果,但是,在宏观数据处理过程中,仅仅是按照拟合得到的曲线关系,采用特定的换算公式进行计算,并不能得到准确的评价分值,尤其对于专利文献来说,其引用量与被引用量是差距十分明显,且专利文献总量也较大,由于在众多被评价对象中存在引用关系尤其是被引用多次的取得重大技术突破的文献毕竟是少数,而文件基数较大,少数文件的被引用数量极大;但多数文件的被引用数量极小,按照普通统计结果直接换算的形式,均会出现统计数值无法均衡分布的情况,因此换算得到的分值并不能准确代表该项被评价对象的影响力。


技术实现思路

1、针对上述样本数量巨大,且指标分散程度存在差异较大的文献,本专利技术的目的在于提供一种数据分布均衡优化重分组方法、电子设备及储存介质,使得数据在评价过程中分布相对更均衡。

2、其方法技术方案包括:一种数据分布均衡优化重分组方法,包括:

3、获取待优化数据库,确定待优化数据库的初次分组依据指标;

4、根据初次分组依据指标对待优化数据库数据进行分类,获取聚类组内数据集合和聚类组外数据集合;

5、获取聚类组内数据集合中每个数据的初次分组依据指标的指标值;

6、根据指标值对聚类组内数据集合的数据进行初次分组,确定每个指标值对应的数据组的数据量;

7、将各个数据组按照数据量从小到大排序,并将排序结果拟合成第一曲线;

8、获取第一曲线的斜率最大值和斜率最小值,根据第一曲线的斜率最大值和斜率最小值获取满足预期重分组个数的分组节点;

9、获取各个分组节点处的指标值,并将各个分组节点按照指标值从大到小/从小到大进行排序,获取相邻分组节点的指标值区间;

10、将聚类组内数据集合按照指标值区间进行重分组,并将聚类组外数据集合作为第一组或最后一组,完成待优化数据库的重新分组。

11、进一步的,所述待优化数据为专利文献,所述初次分组依据指标为引用数量、被引用数量、权利要求项数及同族数量中的一种。

12、进一步的,所述待优化数据为论文文献,所述初次分组依据指标为作者数量、文献的影响数值中的一种。

13、进一步的,根据指标特征将待优化数据库进行聚类过程包括,当待优化数据库中的数据初次分组依据指标的指标值为0时,记录为聚类组外数据集合,否则记录为聚类组内数据集合。

14、进一步的,当所述聚类组外数据集合数据总量为0时,将聚类组内数据集合按照指标值区间进行重分组后直接作为待优化数据库的重新分组结果输出。

15、进一步的,根据第一曲线的斜率最大值和斜率最小值获取满足预期重分组个数的分组节点的过程包括:

16、获得基准切线:根据第一曲线的斜率最大值和斜率最小值计算斜率中间值,并根据斜率中间值拟合出第一曲线对应斜率的基准切线;

17、获得端点切线:获取与基准切线平行并与第一曲线数值最大点相交,且在第一曲线所在二维坐标系下与距离基准切线最远的直线作为端点切线;

18、获得分组节点;在基准切线与端点切线等距插入与基准切线平行的直线,直至插入的直线与第一曲线交点满足预期重分组数量需要。

19、一种电子设备,包括:存储器,存储有计算机程序指令;处理器,当所述计算机程序指令被所述处理器执行时实现上述任意一种方法的步骤。

20、一种计算机可读存储介质,所述计算机可读存储介质用于存储指令,当存储的指令在计算机上运行时,使得所述计算机执行如上述任意一项所述方法的步骤。

21、本专利技术设置的评价得分差异分布,通过使数据集中区域的得分差异更大、数据分散区域的得分差异更小,让得分能更加准确地反映样本的所处地位。

本文档来自技高网...

【技术保护点】

1.一种数据分布均衡优化重分组方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述待优化数据为专利文献,所述初次分组依据指标为引用数量、被引用数量、权利要求项数及同族数量中的一种。

3.根据权利要求1所述的方法,其特征在于,所述待优化数据为论文文献,所述初次分组依据指标为作者数量、文献的影响数值中的一种。

4.根据权利要求2或3所述的方法,其特征在于,其特征在于,根据指标特征将待优化数据库进行聚类过程包括,当待优化数据库中的数据初次分组依据指标的指标值为0时,记录为聚类组外数据集合,否则记录为聚类组内数据集合。

5.根据权利要求4所述的方法,其特征在于,当所述聚类组外数据集合数据总量为0时,将聚类组内数据集合按照指标值区间进行重分组后直接作为待优化数据库的重新分组结果输出。

6.根据权利要求1所述的方法,其特征在于,根据第一曲线的斜率最大值和斜率最小值获取满足预期重分组个数的分组节点的过程包括:

7.一种电子设备,包括:

8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储指令,当存储的指令在计算机上运行时,使得所述计算机执行如上述权利要求1-6中任意一项所述的数据分布均衡优化重分组方法的步骤。

...

【技术特征摘要】

1.一种数据分布均衡优化重分组方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述待优化数据为专利文献,所述初次分组依据指标为引用数量、被引用数量、权利要求项数及同族数量中的一种。

3.根据权利要求1所述的方法,其特征在于,所述待优化数据为论文文献,所述初次分组依据指标为作者数量、文献的影响数值中的一种。

4.根据权利要求2或3所述的方法,其特征在于,其特征在于,根据指标特征将待优化数据库进行聚类过程包括,当待优化数据库中的数据初次分组依据指标的指标值为0时,记录为聚类组外数据集合,否则记录为聚类组内数据...

【专利技术属性】
技术研发人员:赵大川庄绪霞黄菲钟其同安辰宇窦磊程垒陈少进
申请(专利权)人:北京科华万象科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1