System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 应用于数据质量的智能优化方法技术_技高网

应用于数据质量的智能优化方法技术

技术编号:42536287 阅读:4 留言:0更新日期:2024-08-27 19:42
本发明专利技术提供应用于数据质量的智能优化方法,包括以下具体步骤:从各种数据源收集数据资源;评估数据源收集的数据资源,得到质量评估结果,根据数据资源的质量评估结果选取优选数据资源;获取所需数据的业务需求和目标,从业务需求和目标中识别所需的数据资源标记为需求数据资源;对需求数据资源对应优选数据资源进行质量优化,得到优化数据资源;将优化数据资源应用于需求数据资源,以满足业务需求。本发明专利技术通过运用对抗网络算法对生成器和判别器展开深度训练,实现数据的自动化处理并优化以获得高质量数据成果,同时,依靠反复迭代优化操作,有力地保障了其出色的性能水平和稳定的运行状态,满足多元业务需求,实现对数据质量的优化。

【技术实现步骤摘要】

本专利技术涉及数据质量优化,尤其涉及应用于数据质量的智能优化方法


技术介绍

1、随着大数据技术的飞速发展,企业和组织面临着日益增长的数据量和复杂多变的数据环境。这些数据涵盖了各种来源,形成了庞大而错综复杂的数据资源网络。然而,这种数据的爆炸性增长和多样性给数据的管理和质量控制带来了巨大挑战。

2、尽管存在多种数据质量管理工具和技术,但大多数方法在处理大规模、多样化的数据集时仍面临挑战。传统的数据清洗和预处理技术往往依赖于固定的规则和人工干预,这不仅效率低下,而且难以适应数据的动态变化和复杂性。此外,随着业务需求的不断演变,对数据质量的要求也在不断提高,需要更加智能和自动化的方法来优化数据质量。因此,我们提出应用于数据质量的智能优化方法,来解决上述中遇到的问题。


技术实现思路

1、针对现有技术存在的不足,本专利技术提供应用于数据质量的智能优化方法,以解决上述
技术介绍
中提出的问题。

2、本专利技术的目的可以通过以下技术方案实现:包括以下具体步骤:

3、s1:从各种数据源收集数据资源;

4、s2:评估数据源收集的数据资源,得到质量评估结果,根据数据资源的质量评估结果选取优选数据资源;

5、s3:获取所需数据的业务需求和目标,从业务需求和目标中识别所需的数据资源标记为需求数据资源;

6、s4:对需求数据资源对应优选数据资源进行质量优化,得到优化数据资源;

7、s5:将优化数据资源应用于需求数据资源,以满足业务需求。

8、作为优选的,基于步骤s2,评估数据源收集的数据资源,具体为:

9、s21:根据数据标签对各种数据源进行分类,得到若干个分类数据资源;

10、s22:对分类数据资源中的数据质量进行实时分析,以得到实时分析结果;其中实时分析结果包括分类数据资源中子集数据的子集评分值及对应实际数据组的数据评分值和数据源中分类数据资源的分源值;

11、s23:对分类数据资源中的数据质量进行变化分析,以得到数据质量的变化波动值;

12、s24:再对分源值与变化波动值进行加权处理,得到分类数据资源对应数据源的质量评估值;

13、s25:将所有数据源中分类数据资源的分源值、变化波动值和质量评估值标记为质量评估结果;

14、s26:选取分类数据资源设定个数的质量评估值作为优选分选数据;将所有数据源的优选分选数据标记为优选数据资源。

15、作为优选的,对分类数据资源中的数据质量进行实时分析,具体为:

16、s221:获取分类数据资源子集数据的实际数据组,设定数据质量评估指标框架,从数据质量评估指标框架中提取与实际数据组中对应数据相应维度的预期值,将子集数据中每组实际数据组中任意数据与其数据维度对应的预期值进行差值计算,得到实际数据组中数据对应维度的预期差值;其中,数据质量的维度包括真实性、准确性、完整性、及时性、适用性、经济性、可比性、协调性和可获得性;

17、s222:对实际数据组中任一数据所有维度的预期差值进行计算,得到该实际数据组的数据评分值;

18、s223:再对子集数据中所有实际数据组的数据评分值进行计算,得到子集评分值;

19、s224:将分类数据资源中的按照子集评分值的大小顺序进行排序;对数据源中分类数据资源的子集数据按照其序列和子集评分值进行计算,得到数据源中分类数据资源的分源值;将分类数据资源中子集数据的子集评分值及对应实际数据组的数据评分值和数据源中分类数据资源的分源值标记为实时分析结果。

20、作为优选的,对分类数据资源中的数据质量进行变化分析,具体为:

21、建立数据质量变化折线图,将分源值与其采集时刻输入到该折线图中,将分源值在折线图中的位置标记为分源点,连接相邻的分源点得到分源线,将任意分源点作为初始分源点,将初始分源点下一采集时刻的分源点标记为第二分源点,以第二分源点为起点做竖直垂直线,以第一分源点为起点做水平垂直线,由竖直垂直线、水平垂直线和分源线相连接构成分源三角形,计算分源三角形的面积;将在分源线下方的分源三角形标记为升源值,将在分源线上方的分源三角形标记为降源值;设定近期质量时区,分别将近期质量时区内所有的升源值、降源值进行求和得到升源总值、降源总值;对升源总值和降源总值进行加权计算,得到变化波动值。

22、作为优选的,基于步骤s5之后,还对优化数据资源应用于需求数据资源后进行数据的应用质量评估分析,具体为:

23、s61:获取优选数据源所对应的分类数据资源应用于需求分类数据资源后客户的使用反馈评价内容,并对使用反馈评价内容进行情感类型关键词提取,得到对应分类数据资源的各情感类型关键词,同时对其进行整合处理,得到各情感类型关键词集合,标记为n表示数据源的编号,m表示分类数据资源的编号;

24、s62:提取各情感类型对应的关键词集合,标记为fy,y=y1,y2,y3,y=y1,y2,y3分别表示为用户对数据源对应分类数据资源评价的褒义类型、中性类型、贬义类型;利用公式得到数据源对应分类数据资源的评价评估值;其中,表示第n个数据源中第m个分类数据资源的评价评估值,fy1、fy2、fy3分别表示为褒义类型对应的关键词集合、中性类型对应的关键词集合、贬义类型对应的关键词集合,b1、b2、b3分别表示为设定的评论褒义类型关键词匹配度、评论中性类型关键词匹配度、评论贬义类型关键词匹配度对应的指数因子;

25、s63:设定预设提取时区,提取在预设提取时区内数据源中分类数据资源作为优选分选数据的次数标记为优选次数表示为利用公式得到对应分类数据资源的质量状态评估指数其中,z′表示为同类分类数据资源作为优选分选数据的总选取数量,c1、c2分别表示对应分类数据资源的评价评估值以及优选次数的权重因子。

26、作为优选的,基于应用质量评估分析之后,还对优选数据资源的质量状态评估指数进行历史比对分析处理,具体为:

27、获取所需数据的业务需求和目标在历史数据中的分类数据资源的质量状态评估指数标记为q表示所需数据的业务需求和目标所应用分类数据资源的当前质量状态评估指数的索引,将与进行比对,若时,则表示实际应用的数据质量有所提升,反之,若则表示实际应用的数据质量有所下降;其中,表示当前质量状态评估指数之前上一个的质量状态评估指数;

28、设定历史选取分类数据资源的个数,将历史选取分类资源的质量状态评估指数按照时间先后顺序排列并编号k表示质量状态评估指数的索引;

29、建立历史质量状态评估折线图,将历史选取分类资源的质量状态评估指数与其生成时刻输入到该折线图中,将质量状态评估指数在折线图中的位置标记为评估点,连接相邻的评估点得到评估线,以评估点为原点做垂直线与其对应生成时刻的位置相交,将评估线与其两端评估点的垂直线和其生成时刻相交之间的线段构成四边形,计算四边形的面积得到评估面值;使用方差公式计算得本文档来自技高网...

【技术保护点】

1.应用于数据质量的智能优化方法,其特征在于,包括以下具体步骤:

2.根据权利要求1的应用于数据质量的智能优化方法,其特征在于,基于步骤S2,评估数据源收集的数据资源,具体为:

3.根据权利要求2的应用于数据质量的智能优化方法,其特征在于,对分类数据资源中的数据质量进行实时分析,具体为:

4.根据权利要求2的应用于数据质量的智能优化方法,其特征在于,对分类数据资源中的数据质量进行变化分析,具体为:

5.根据权利要求1的应用于数据质量的智能优化方法,其特征在于,基于步骤S5之后,还对优化数据资源应用于需求数据资源后进行数据的应用质量评估分析,具体为:

6.根据权利要求5的应用于数据质量的智能优化方法,其特征在于,基于应用质量评估分析之后,还对优选数据资源的质量状态评估指数进行历史比对分析处理,具体为:

7.根据权利要求1的应用于数据质量的智能优化方法,其特征在于,基于步骤S4,对需求数据资源对应的优选数据资源进行质量优化,具体如下:

8.根据权利要求1的应用于数据质量的智能优化方法,其特征在于,基于步骤S44,交替训练生成器和判别器,具体如下:

9.根据权利要求1的应用于数据质量的智能优化方法,其特征在于,基于步骤S1,数据源由多个提供,渠道包括合作网站、政府机构、研究机构、商业数据提供商。

...

【技术特征摘要】

1.应用于数据质量的智能优化方法,其特征在于,包括以下具体步骤:

2.根据权利要求1的应用于数据质量的智能优化方法,其特征在于,基于步骤s2,评估数据源收集的数据资源,具体为:

3.根据权利要求2的应用于数据质量的智能优化方法,其特征在于,对分类数据资源中的数据质量进行实时分析,具体为:

4.根据权利要求2的应用于数据质量的智能优化方法,其特征在于,对分类数据资源中的数据质量进行变化分析,具体为:

5.根据权利要求1的应用于数据质量的智能优化方法,其特征在于,基于步骤s5之后,还对优化数据资源应用于需求数据资源后进行数据的应用质量评估分析,具体为:...

【专利技术属性】
技术研发人员:沈晓怡赵亚伟邓健伏胜冉
申请(专利权)人:中科蓝吧数字科技苏州有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1