本申请公开了一种数据评估方法、装置、电子设备及存储介质,该方法包括:通过获取数据集,数据集包括原始数据集和根据原始数据集使用模型产生的合成数据集,对数据集进行标准化处理以得到标准化数据集,标准化数据集包括标准化原始数据集和标准化合成数据集,将标准化数据集输入预先建立的分析模型以确定累计方差解释指标和詹森‑香农散度,詹森‑香农散度根据标准化原始数据集和标准化合成数据集的概率分布相似度确定,对累计方差解释指标和詹森‑香农散度加权平均处理以构建评估模型,并根据评估模型评估合成数据集的合成质量,通过分布相似性方法和累计方差进行有效结合,引入权重系数,可以对合成数据的真实性和可信性进行综合评估。
【技术实现步骤摘要】
本申请涉及生成式人工智能,具体涉及一种数据评估方法、装置、电子设备及存储介质。
技术介绍
1、随着技术的进步,特别是在深度学习、自然语言处理等领域的突破,对于大量高质量数据的需求不断增加。真实世界的数据往往难以获取,或者获取成本过高,且可能涉及隐私和安全问题。合成数据生成技术的发展,为数据的高效利用和智能分析开辟了新的道路。
2、在相关技术中,变分自动编码器(vae)和生成对抗网络(gan)等深度学习技术的发展,使得合成数据的质量越来越高,越来越难以与真实数据区分。同时,大型语言模型(llms)如gpt等在自然语言处理领域的成功,展示了合成数据在文本生成方面的巨大潜力。这些技术的发展不仅推动了合成数据生成的研究,也为实际应用中的数据处理和分析提供了新的解决方案。
3、尽管目前存在多种方案用于合成数据的生成,但如何确保合成数据的可信性、合理性、有效性、可靠性从而拓展大模型知识边界、推动大模型推理、泛化能力,是亟需解决的。
技术实现思路
1、鉴于上述问题,本申请提供一种数据评估方法、装置、电子设备及存储介质,以至少解决相关技术中存在的问题。
2、第一方面,本申请实施例提供了一种数据评估方法,数据评估方法,包括:
3、获取数据集,其中,所述数据集包括:原始数据集和根据所述原始数据集使用模型产生的合成数据集;
4、对所述数据集进行标准化处理以得到标准化数据集,其中,所述标准化数据集包括:标准化原始数据集和标准化合成数据集;
5、将所述标准化数据集输入至预先建立的分析模型中以确定累计方差解释指标和詹森-香农散度,其中,所述詹森-香农散度根据所述标准化原始数据集和标准化合成数据集的概率分布相似度确定;
6、对所述累计方差解释指标和詹森-香农散度进行加权平均处理以构建评估模型,并根据所述评估模型评估所述合成数据集的合成质量。
7、在一些实施例中,所述将所述标准化数据集输入至预先建立的分析模型中以确定累计方差解释指标,包括:
8、计算所述标准化原始数据集和标准化合成数据集的协方差矩阵;
9、基于所述协方差矩阵分别进行特征分解处理以得到对应的特征分解结果,其中,所述特征分解结果包括:特征值和特征向量;
10、基于所述特征分解结果以确定所述累计方差解释指标。
11、在一些实施例中,所述基于所述特征分解结果以确定所述累计方差解释指标,包括:
12、基于所述特征值和特征向量分别计算所述标准化原始数据集的第一方差解释比例和所述标准化合成数据集的第二方差解释比例;
13、设定第一阈值并根据所述第一阈值和所述第一方差解释比例计算标准化原始数据集的第一累计方差解释比例;
14、设定第二阈值并根据所述第二阈值和所述第二方差解释比例计算标准化合成数据集的第二累计方差解释比例;
15、根据所述第一累计方差解释比例和第二累计方差解释比例的比值确定所述累计方差解释指标。
16、在一些实施例中,所述将所述标准化数据集输入至预先建立的分析模型中以确定詹森-香农散度,包括:
17、计算所述标准化原始数据集和标准化合成数据集的概率分布;
18、基于所述概率分布进行计算得到平均分布;
19、基于所述概率分布和平均分布计算詹森-香农散度。
20、在一些实施例中,所述对所述累计方差解释指标和詹森-香农散度进行加权平均处理以构建评估模型,包括:
21、根据数据评估需求对所述累计方差解释指标和詹森-香农散度分别设置不同的权重系数;
22、通过分别将所述权重系数与所述累计方差解释指标和詹森-香农散度的乘积求和以构建评估模型。
23、在一些实施例中,所述对所述数据集进行标准化处理以得到标准化数据集,包括:
24、通过对所述数据集采用最小-最大标准化处理或得分标准化处理以得到所述标准化数据集。
25、在一些实施例中,所述根据所述评估模型评估所述合成数据集的合成质量,包括:
26、根据所述评估模型评估所述合成数据集经处理后对应的累计方差解释指标和詹森-香农散度的分析结果;
27、根据所述评估模型评估给出改进所述合成数据集的合成质量的应用建议,其中,所述应用建议包括:模型训练、模型对齐和数据插补。
28、第二方面,本申请实施例提供了一种过温保护装置,包括:
29、获取模块,用于获取数据集,其中,所述数据集包括:原始数据集和根据所述原始数据集使用模型产生的合成数据集。
30、处理模块,用于对所述数据集进行标准化处理以得到标准化数据集,其中,所述标准化数据集包括:标准化原始数据集和标准化合成数据集。
31、确定模块,用于将所述标准化数据集输入至预先建立的分析模型中以确定累计方差解释指标和詹森-香农散度,其中,所述詹森-香农散度根据所述标准化原始数据集和标准化合成数据集的概率分布相似度确定。
32、评估模块,用于对所述累计方差解释指标和詹森-香农散度进行加权平均处理以构建评估模型,并根据所述评估模型评估所述合成数据集的合成质量。
33、第三方面,本申请实施例提供一种电子设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的程序代码,所述程序代码被所述处理器执行时,实现如第一方面任一项实施方式所介绍的数据评估方法。
34、第四方面,本申请实施例提供一种计算机存储介质,该计算机存储介质储存有一个或多个程序,一个或者多个程序可被如第三方面介绍的电子设备执行,以实现如第一方面任一项实施方式所介绍的数据评估方法。
35、本申请实施例提供的一种数据评估方法、装置、电子设备及存储介质,通过获取数据集,其中,数据集包括:原始数据集和根据原始数据集使用模型产生的合成数据集,对数据集进行标准化处理以得到标准化数据集,其中,标准化数据集包括:标准化原始数据集和标准化合成数据集,将标准化数据集输入至预先建立的分析模型中以确定累计方差解释指标和杰森-香农散度,其中,詹森-香农散度根据标准化原始数据集和标准化合成数据集的概率分布相似度确定,对累计方差解释指标和詹森-香农散度进行加权平均处理以构建评估模型,并根据评估模型评估合成数据集的合成质量,本申请采用了分布相似性方法和累计方差解释方法,并进行有效结合,引入权重系数,可以对合成数据的真实性和可信性进行综合评估。
36、应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
本文档来自技高网...
【技术保护点】
1.一种数据评估方法,其特征在于,所述方法包括:
2.根据权利要求1所述的数据评估方法,其特征在于,所述将所述标准化数据集输入至预先建立的分析模型中以确定累计方差解释指标,包括:
3.根据权利要求2所述的数据评估方法,其特征在于,所述基于所述特征分解结果以确定所述累计方差解释指标,包括:
4.根据权利要求2所述的数据评估方法,其特征在于,所述将所述标准化数据集输入至预先建立的分析模型中以确定詹森-香农散度,包括:
5.根据权利要求1所述的数据评估方法,其特征在于,所述对所述累计方差解释指标和詹森-香农散度进行加权平均处理以构建评估模型,包括:
6.根据权利要求1所述的数据评估方法,其特征在于,所述对所述数据集进行标准化处理以得到标准化数据集,包括:
7.根据权利要求1所述的数据评估方法,其特征在于,所述根据所述评估模型评估所述合成数据集的合成质量,包括:
8.一种数据评估装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的程序代码,所述程序代码被所述处理器执行时,实现如权利要求1-7中任一项所述的数据评估方法。
10.一种计算机可读存储介质,其特征在于,该所述计算机可读存储介质存储有程序代码,所述程序代码可被一个或多个处理器调用执行如权利要求1-7中任一项所述的数据评估方法。
...
【技术特征摘要】
1.一种数据评估方法,其特征在于,所述方法包括:
2.根据权利要求1所述的数据评估方法,其特征在于,所述将所述标准化数据集输入至预先建立的分析模型中以确定累计方差解释指标,包括:
3.根据权利要求2所述的数据评估方法,其特征在于,所述基于所述特征分解结果以确定所述累计方差解释指标,包括:
4.根据权利要求2所述的数据评估方法,其特征在于,所述将所述标准化数据集输入至预先建立的分析模型中以确定詹森-香农散度,包括:
5.根据权利要求1所述的数据评估方法,其特征在于,所述对所述累计方差解释指标和詹森-香农散度进行加权平均处理以构建评估模型,包括:
6.根据权利要求1所述的数据评估...
【专利技术属性】
技术研发人员:谭董,王开业,刘维,许薇,周家樑,
申请(专利权)人:成都航天科工大数据研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。