本发明专利技术实施例公开了数据合成的方法、装置和设备,该方法包括:获取原始数据;将原始数据分为键值数据和剩余数据;根据键值数据生成新键值;将剩余数据进行处理得到离散数据和连续数据;对离散数据进行卡方分布处理得到新离散数据;对连续数据进行因子处理得到字符型数据和合并数字数据;根据字符数据生成新连续字符数据;根据数字数据Copula过程和算式数据处理生成新连续数字数据,并把Copula过程得到数字数据处理为时间型数据;将新键值、新离散数据、新连续字符数据、新连续数字数据和时间型数据进行数据合成。本发明专利技术可以批量生成与原始数据拥有相同集特征的合成数据,以满足大量机器学习所需训练集问题及其他研究需求。
【技术实现步骤摘要】
数据合成的方法、装置和设备
本专利技术实施例涉及数据合成
,具体涉及数据合成的方法、装置和设备。
技术介绍
数据合成技术(DataSynthetic),也称测试数据生成技术,其目的是根据已有数据集的特征生成有相同集特征的数据集。当前的数据合成技术中,如果存在离散型数据与连续性数据并存的数据集,对于连续型数据的特征提取以及生成算法并没有一个好的方案。对于数据安全问题的处理手段,仍然是以脱敏技术为主。以差分隐私算法为例:该算法主要是针对差分攻击来进行数据保护,差分攻击,指通过观察输出或者中间参数,利用算法进行反向推倒来逆推出输入数据的手段。举例说明:如果攻击者知道了一组数据的平均值,那么当添加新的数据时,只要重新获取数据均值,就可以推导出新添数据的具体值。差分隐私的做法是给数据添加“噪声”来保护真实数据,比如拉普拉斯噪声,这种手段可以有效的避免差分攻击造成的损害,但仍然存在一些不足:无法通过这种算法得到多于原数据条数的数据,例:原始数据10万条,生成的数据也是10万条。
技术实现思路
本专利技术实施例的目的在于提供数据合成的方法、装置和设备,用以解决现有数据合成无法得到多余原始数据条数的问题。为实现上述目的,本专利技术实施例主要提供如下技术方案:第一方面,本专利技术实施例提供了一种数据合成的方法,包括:获取原始数据;将所述原始数据分为键值数据和剩余数据;根据所述键值数据生成新键值;将所述剩余数据进行处理得到离散数据和连续数据;对所述离散数据进行卡方分布处理得到新离散数据;对所述连续数据进行因子处理得到字符型数据、第一数字数据和时间数据,并将所述时间数据进行因子化得到第二数字数据,进而根据所述第一数字数据和所述第二数字数据得到合并数字数据;根据所述字符数据生成新连续字符数据;根据所述合并数字数据进行Copula过程和算式数据处理生成新连续数字数据,并把Copula过程得到数字数据处理为时间型数据;将所述新键值、所述新离散数据、所述新连续字符数据、所述新连续数字数据和所述时间型数据进行数据合成。根据本专利技术的一个实施例,所述根据所述字符数据生成新连续字符数据,包括:根据所述字符数据使用抽取转换装载ETL生成所述新连续字符数据。根据本专利技术的一个实施例,所述将所述原始数据分为所述键值数据和所述剩余数据,包括:对所述原始数据进行数据清洗;对所述数据清洗后的原始数据,采用根据主键约束得到所述键值数据和所述剩余数据。第二方面,本专利技术实施例还提供一种数据合成的装置,包括:原始数据获取模块,用于获取原始数据;处理模块,用于将所述原始数据分为键值数据和剩余数据,根据所述键值数据生成新键值,并将所述剩余数据进行处理得到离散数据和连续数据;所述处理模块还用于对所述离散数据进行卡方分布处理得到新离散数据,并对所述连续数据进行因子处理得到字符型数据、第一数字数据和时间数据,并将所述时间数据进行因子化得到第二数字数据,进而根据所述第一数字数据和所述第二数字数据得到合并数字数据;所述处理模块还用于根据所述字符数据生成新连续字符数据,根据所述合并数字数据进行Copula过程和算式数据处理生成新连续数字数据,并把Copula过程得到数字数据处理为时间型数据;将所述新键值、所述新离散数据、所述新连续字符数据、所述新连续数字数据和所述时间型数据进行数据合成。根据本专利技术的一个实施例,所述处理模块用于根据所述字符数据使用抽取转换装载ETL生成所述新连续字符数据。根据本专利技术的一个实施例,所述处理模块用于对所述原始数据进行数据清洗;对所述数据清洗后的原始数据,采用根据主键约束得到所述键值数据和所述剩余数据。第三方面,本专利技术实施例还提供一种电子设备,包括:至少一个处理器和至少一个存储器;所述存储器用于存储一个或多个程序指令;所述处理器,用于运行一个或多个程序指令,用以执行如第一方面所述的数据合成的方法。第四方面,本专利技术实施例还提供一种计算机可读存储介质,包含一个或多个程序指令,所述一个或多个程序指令用于被执行如第一方面所述的数据合成的方法。本专利技术实施例提供的技术方案至少具有如下优点:本专利技术实施例提供的数据合成的方法、装置和设备,类比数据库内的数据特征与数据,数据的各个特征列可以看作是边缘分布函数,数据的每一个特征都可以看作多维空间的一个维度,而各个数据特征维度所组成的数据可以看为联合分布函数,在这个前提下描述各个特征之间的关系以及它们与完整数据之间的关系。本专利技术可以批量生成与原始数据拥有相同集特征的合成数据,以满足大量机器学习所需训练集问题及其他研究需求。附图说明图1为本专利技术实施例的数据合成的方法的流程图。图2为本专利技术实施例的数据合成的装置的结构框图。具体实施方式以下由特定的具体实施例说明本专利技术的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本专利技术的其他优点及功效。以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本专利技术。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本专利技术。在其它情况中,省略对众所周知的系统、电路以及方法的详细说明,以免不必要的细节妨碍本专利技术的描述。图1为本专利技术实施例的数据合成的方法的流程图。如图1所示,本专利技术实施例的数据合成的方法,包括:S1:获取原始数据。具体地,由数据库或其他源读取原始数据,这些原始数据作为进行数据合成的基础数据。S2:将原始数据分为键值数据和剩余数据(即图1中的其他数据)。具体地,对原始数据进行数据清洗,使用0值代替NULL。依靠主键,联合主键特点(唯一性且非空)找出主键及然后对数据进行类型区分,并将键值从数据主体中去除。主键往往没有实际意义,比如成交编号等。S3:根据键值数据生成新键值。S4:将剩余数据进行处理得到离散数据和连续数据。具体地,将去除主键值后的剩余数据按照数据类型分为字符型,数字型数据及时间类数据和离散数据。其中,类型区分的方式可以利用Java连接SQL,读取数据库内存储的数据类型,与自设类型或java类型建立匹配关系。在本实施例中,离散类数据是指性别,交易方式这种离散类数据。S5:对离散数据进行卡方分布处理得到新离散数据。具体地,离散数据,获取所有非重取值,计算各种情况所占总量的百分比。卡方检验是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。卡方校验的步骤包括:(1)提出原假设:H0:总体X的分布函数为F(x).如果总体分布为离散型,则假设具体为:H0:总体X的分布律为P{X=xi}=pi,i=1,2,...。(2)将总体X的取值范围分成k个互不相交的小区间A1,A2,A3,…,Ak,如可取A1=(a本文档来自技高网...
【技术保护点】
1.一种数据合成的方法,其特征在于,包括:/n获取原始数据;/n将所述原始数据分为键值数据和剩余数据;/n根据所述键值数据生成新键值;/n将所述剩余数据进行处理得到离散数据和连续数据;/n对所述离散数据进行卡方分布处理得到新离散数据;/n对所述连续数据进行因子处理得到字符型数据、第一数字数据和时间数据,并将所述时间数据进行因子化得到第二数字数据,进而根据所述第一数字数据和所述第二数字数据得到合并数字数据;/n根据所述字符数据生成新连续字符数据;/n根据所述合并数字数据进行Copula过程和算式数据处理生成新连续数字数据,并把Copula过程得到数字数据处理为时间型数据;/n将所述新键值、所述新离散数据、所述新连续字符数据、所述新连续数字数据和所述时间型数据进行数据合成。/n
【技术特征摘要】
1.一种数据合成的方法,其特征在于,包括:
获取原始数据;
将所述原始数据分为键值数据和剩余数据;
根据所述键值数据生成新键值;
将所述剩余数据进行处理得到离散数据和连续数据;
对所述离散数据进行卡方分布处理得到新离散数据;
对所述连续数据进行因子处理得到字符型数据、第一数字数据和时间数据,并将所述时间数据进行因子化得到第二数字数据,进而根据所述第一数字数据和所述第二数字数据得到合并数字数据;
根据所述字符数据生成新连续字符数据;
根据所述合并数字数据进行Copula过程和算式数据处理生成新连续数字数据,并把Copula过程得到数字数据处理为时间型数据;
将所述新键值、所述新离散数据、所述新连续字符数据、所述新连续数字数据和所述时间型数据进行数据合成。
2.根据权利要求1所述的数据合成的方法,其特征在于,所述根据所述字符数据生成新连续字符数据,包括:
根据所述字符数据使用抽取转换装载ETL生成所述新连续字符数据。
3.根据权利要求1所述的数据合成的方法,其特征在于,所述将所述原始数据分为所述键值数据和所述剩余数据,包括:
对所述原始数据进行数据清洗;
对所述数据清洗后的原始数据,采用根据主键约束得到所述键值数据和所述剩余数据。
4.一种数据合成的装置,其特征在于,包括:
原始数据获取模块,用于获取原始数据;
处理模块,用于将所述原始数据分为键值数据和剩余数据,根据所述键值数据生成新...
【专利技术属性】
技术研发人员:孙尉嘉,杜雨诺,
申请(专利权)人:沈阳派客动力科技有限公司,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。