数据合成的方法、装置和设备制造方法及图纸

技术编号：25521560 阅读：35 留言：0更新日期：2020-09-04 17:11

本发明专利技术实施例公开了数据合成的方法、装置和设备，该方法包括：获取原始数据；将原始数据分为键值数据和剩余数据；根据键值数据生成新键值；将剩余数据进行处理得到离散数据和连续数据；对离散数据进行卡方分布处理得到新离散数据；对连续数据进行因子处理得到字符型数据和合并数字数据；根据字符数据生成新连续字符数据；根据数字数据Copula过程和算式数据处理生成新连续数字数据，并把Copula过程得到数字数据处理为时间型数据；将新键值、新离散数据、新连续字符数据、新连续数字数据和时间型数据进行数据合成。本发明专利技术可以批量生成与原始数据拥有相同集特征的合成数据，以满足大量机器学习所需训练集问题及其他研究需求。

全部详细技术资料下载

【技术实现步骤摘要】
数据合成的方法、装置和设备
本专利技术实施例涉及数据合成
，具体涉及数据合成的方法、装置和设备。
技术介绍
数据合成技术(DataSynthetic)，也称测试数据生成技术，其目的是根据已有数据集的特征生成有相同集特征的数据集。当前的数据合成技术中，如果存在离散型数据与连续性数据并存的数据集，对于连续型数据的特征提取以及生成算法并没有一个好的方案。对于数据安全问题的处理手段，仍然是以脱敏技术为主。以差分隐私算法为例：该算法主要是针对差分攻击来进行数据保护，差分攻击，指通过观察输出或者中间参数，利用算法进行反向推倒来逆推出输入数据的手段。举例说明：如果攻击者知道了一组数据的平均值，那么当添加新的数据时，只要重新获取数据均值，就可以推导出新添数据的具体值。差分隐私的做法是给数据添加“噪声”来保护真实数据，比如拉普拉斯噪声，这种手段可以有效的避免差分攻击造成的损害，但仍然存在一些不足：无法通过这种算法得到多于原数据条数的数据，例：原始数据10万条，生成的数据也是10万条。
技术实现思路
本专利技术实施例的目的在于提供数据合成的方法、装置和设备，用以解决现有数据合成无法得到多余原始数据条数的问题。为实现上述目的，本专利技术实施例主要提供如下技术方案：第一方面，本专利技术实施例提供了一种数据合成的方法，包括：获取原始数据；将所述原始数据分为键值数据和剩余数据；根据所述键值数据生成新键值；将所述剩余数据进行处理得到离散数据和连续数据；对所述离散数据进行卡方分布处理得到新离散数据；...

【技术保护点】
1.一种数据合成的方法，其特征在于，包括：/n获取原始数据；/n将所述原始数据分为键值数据和剩余数据；/n根据所述键值数据生成新键值；/n将所述剩余数据进行处理得到离散数据和连续数据；/n对所述离散数据进行卡方分布处理得到新离散数据；/n对所述连续数据进行因子处理得到字符型数据、第一数字数据和时间数据，并将所述时间数据进行因子化得到第二数字数据，进而根据所述第一数字数据和所述第二数字数据得到合并数字数据；/n根据所述字符数据生成新连续字符数据；/n根据所述合并数字数据进行Copula过程和算式数据处理生成新连续数字数据，并把Copula过程得到数字数据处理为时间型数据；/n将所述新键值、所述新离散数据、所述新连续字符数据、所述新连续数字数据和所述时间型数据进行数据合成。/n

【技术特征摘要】
1.一种数据合成的方法，其特征在于，包括：
获取原始数据；
将所述原始数据分为键值数据和剩余数据；
根据所述键值数据生成新键值；
将所述剩余数据进行处理得到离散数据和连续数据；
对所述离散数据进行卡方分布处理得到新离散数据；
对所述连续数据进行因子处理得到字符型数据、第一数字数据和时间数据，并将所述时间数据进行因子化得到第二数字数据，进而根据所述第一数字数据和所述第二数字数据得到合并数字数据；
根据所述字符数据生成新连续字符数据；
根据所述合并数字数据进行Copula过程和算式数据处理生成新连续数字数据，并把Copula过程得到数字数据处理为时间型数据；
将所述新键值、所述新离散数据、所述新连续字符数据、所述新连续数字数据和所述时间型数据进行数据合成。

2.根据权利要求1所述的数据合成的方法，其特征在于，所述根据所述字符数据生成新连续字符数据，包括：
根据所述字符数据使用抽取转换装载ETL生成所述新连续字符数据。

3.根据权利要求1所述的数据合成的方法，其特征在于，所述将所述原始数据分为所述键值数据和所述剩余数据，包括：
对所述原始数据进行数据清洗；
对所述数据清洗后的原始数据，采用根据主键约束得到所述键值数据和所述剩余数据。

4.一种数据合成的装置，其特征在于，包括：
原始数据获取模块，用于获取原始数据；
处理模块，用于将所述原始数据分为键值数据和剩余数据，根据所述键值数据生成新...

【专利技术属性】
技术研发人员：孙尉嘉，杜雨诺，
申请(专利权)人：沈阳派客动力科技有限公司，
类型：发明
国别省市：辽宁;21

全部详细技术资料下载我是这个专利的主人