一种数据验证方法、电子设备及存储介质技术

技术编号:36876035 阅读:14 留言:0更新日期:2023-03-15 20:36
本发明专利技术涉及计算机数据管理技术领域,特别是涉及一种数据验证方法、电子设备及存储介质,包括:获取待验证数据集data的映射表t,根据t获取data对应的数据分析模型,获取数据分析模型中包含的算子序列x,x中算子的数量为m,获取第m

【技术实现步骤摘要】
一种数据验证方法、电子设备及存储介质


[0001]本专利技术涉及计算机数据管理
,特别是涉及一种数据验证方法、电子设备及存储介质。

技术介绍

[0002]在多方获取数据进行数据统计计算时,基于多方数据的安全及隐私保护问题,需要对多方数据进行联合计算后将执行结果输出到使用方,在输出到使用方之前需要对执行结果进行验证,对执行结果进行验证可以保证各方提供的原始数据的隐私,又能保证使用方获取的数据的正确性。
[0003]CN107844515A中公开了一种数据合规检查方法及装置,首先自动筛选满足预定条件的数据文件,读取数据文件中的字段,之后在读取到的所有字段中筛选出需要检查的待检查字段,并在对待检查字段进行预处理之后,将处理后的待检查字段存储到第一列表中,最后根据预定规则对第一列表中的每个待检查字段进行合规检查,得到每个待检查字段是否符合预定规则,得到检查结果;但是上述现有技术也存在着以下技术问题:
[0004]第一,现有技术不考虑待验证数据集数据类型的不同,对所有的数据类型采用相同的数据验证方式,会造成数据合规性较高的数据集在验证过程中浪费硬件资源的情况;
[0005]第二,现有技术利用预设的文件后缀名作为筛选条件,即筛选出后缀名与预设后缀名相同的文件,对筛选后的文件抽取出待检查字段,并采用同一预设规则对待检查字段中不同类型的字段进行逐一的合规检查,消耗了大量的计算资源。

技术实现思路

[0006]针对上述技术问题,本专利技术采用的技术方案为:一种数据验证方法,所述方法包括以下步骤:
[0007]S100,获取待验证数据集data;其中,data为数据分析模型输出的统计报表类数据或人群包类数据,data包括M个字段;数据分析模型包括算子序列;算子序列为数据分析模型按照执行顺序配置的算子集合。
[0008]S200,获取data的映射表t;所述t包括data与数据分析模型的唯一身份标识ID之间的映射关系。
[0009]S300,根据映射表t获取数据集data对应的数据分析模型。
[0010]S400,获取数据分析模型中包含的算子序列x={x1,x2,

,x
p
,

,x
m
‑1,x
m
},其中,x
p
为数据分析模型执行过程中的第p个算子,p的取值范围为1到m,m为x中算子的数量,x
p
具有标签类型b
p
,标签类型b
p
为统计类算子或人群包类算子。
[0011]S500,获取第m

1个算子x
m
‑1的标签类型b
m
‑1,若标签类型b
m
‑1为统计类算子,则data属于统计报表类数据,执行步骤S600;否则,b
m
‑1为人群包类算子,data属于人群包类数据,执行步骤S700。
[0012]S600,利用正则表达式对data进行逐字段匹配,若M个字段全部匹配成功,则data
验证通过;若任意一个字段匹配失败,则data验证不通过。
[0013]S700,对data进行脱敏处理后直接输出。
[0014]本专利技术至少具有以下有益效果:
[0015]第一,本专利技术利用算子序列中输出算子之前的算子的标签类型判断该数据集属于统计报表类数据或人群包类数据;并对统计报表类数据采用正则表达式逐一审查,对人群包类数据直接脱敏后输出;相对于现有技术中不区分数据类型而进行的逐一字段的验证来说,本专利技术将数据分为两类,并对不同的数据类型采用不同的处理方式,提高了匹配效率,减少了硬件计算资源的浪费。
[0016]第二,可根据映射表直接获取待验证数据集与数据分析模型之间的映射关系,从而获取待验证数据集在数据分析模型中执行的算子序列;本专利技术通过映射表获取输出数据集的数据分析模型按顺序执行的算子序列,就可以由算子序列判断data的数据类型,使得对data的数据类型的判断更加准确,提高了数据验证的准确率。
附图说明
[0017]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0018]图1为本专利技术实施例提供的数据验证的流程图。
具体实施方式
[0019]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0020]请参阅图1,图1示出了本专利技术实施例提供的一种数据验证方法,方法包括以下步骤:
[0021]S100,获取待验证数据集data;其中,data为数据分析模型输出的统计报表类数据或人群包类数据,data包括M个字段;数据分析模型包括算子序列;算子序列为数据分析模型按照执行顺序配置的算子集合。
[0022]其中,数据分析模型为在低代码建模平台通过拖拽数据输入算子、各种分析算子和输出算子,连接各算子的关联关系组建的分析模型;用于对多方提供的数据利用各种算子进行综合计算并将执行结果输出;可选的,数据分析模型为归因分析模型或用户画像分析模型。
[0023]需要说明的是,数据验证为检测数据分析模型的执行结果data的数据格式是否正确并对data进行隐私保护处理;可选的,数据格式为数据的长度和类型。
[0024]其中,统计报表中包括统计数据,统计数据一般是通过对源数据进行统计运算得到的数据。
[0025]其中,人群包是按照预设的规则将用户分类打包,一般是根据用户的手机号或者
银行卡号等将用户分类,人群包类数据可以进行求交集和并集等逻辑运算。
[0026]其中,字段为data中的数据项,具有不同的类型,可选的,字段类型为小数、整数以及字符串类型。
[0027]其中,算子序列按照执行的顺序依次包括:输入算子、执行数据间运算的算子、输出算子。可选的,对于统计报表类数据,执行数据间运算的算子为求和算子、求平均算子以及求差值算子。可选的,对于人群包类数据,执行数据间运算的算子为求交集算子和求并集算子。
[0028]S200,获取data的映射表t;t包括data与数据分析模型的唯一身份标识ID之间的映射关系。
[0029]其中,映射表包括:验证端ID与任务ID之间的映射关系、任务ID与数据分析模型的唯一身份标识ID之间的映射关系;其中,验证端ID为预先配置的用于验证数据分析模型执行任务后生成的待验证数据集data的验证端的地址;每个数据分析模型执行多个任务,每个任务具有唯一的身份标识ID。
[0030]具体的,映射本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据验证方法,其特征在于,所述方法包括以下步骤:S100,获取待验证数据集data;其中,data为数据分析模型输出的统计报表类数据或人群包类数据,data包括M个字段;数据分析模型包括算子序列;算子序列为数据分析模型按照执行顺序配置的算子集合;S200,获取data的映射表t;所述t包括data与数据分析模型的唯一身份标识ID之间的映射关系;S300,根据映射表t获取数据集data对应的数据分析模型;S400,获取数据分析模型中包含的算子序列x={x1,x2,

,x
p
,

,x
m
‑1,x
m
},其中,x
p
为数据分析模型执行过程中的第p个算子,p的取值范围为1到m,m为x中算子的数量,x
p
具有标签类型b
p
,标签类型b
p
为统计类算子或人群包类算子;S500,获取第m

1个算子x
m
‑1的标签类型b
m
‑1,若标签类型b
m
‑1为统计类算子,则data属于统计报表类数据,执行步骤S600;否则,b
m
‑1为人群包类算子,data属于人群包类数据,执行步骤S700;S600,利用正则表达式对data进行逐字段匹配,若M个字段全部匹配成功,则data验证通过;若任意一个字段匹配失败,则data验证不通过;S700,对data进行脱敏处理后直接输出。2.根据权利要求1所述的方法,其特征在于,所述映射表包括:验证端ID与任务ID之间的映射关系、任务ID与数据分析模型的唯一身份标识ID之间的映射关系;其中...

【专利技术属性】
技术研发人员:叶恩麟钱永存杨秋实李浩川叶衍晓
申请(专利权)人:浙江省数据安全服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1