基于样本的多维数据克隆制造技术

技术编号：23242325 阅读：38 留言：0更新日期：2020-02-04 20:31

本发明专利技术涉及生成包含由多变量群体分布所分布的随机数的数据集的技术。从所述多变量群体的多维随机样本集合中构建一组经验累积分布函数，其中每个经验累积分布函数由随机变量的观察结果构建。从所述多维随机样本集合中采样多个多维样本点，并将所述多个多维样本点分别替换为随机邻居以生成克隆数据。

Multidimensional data cloning based on samples

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】基于样本的多维数据克隆相关申请案交叉申请本专利技术要求于2017年3月30日递交的专利技术名称为“基于样本的多维数据克隆”的第15/474801号美国非临时专利申请案以及于2018年3月27日递交的专利技术名称为“基于样本的多维数据克隆”的申请号为PCT/CN2018/080707的国际专利申请的在先申请优先权，该在先申请的内容以引入的方式并入本文中。
本专利技术涉及生成随机数的

技术介绍
包含大量变量的数据越来越常见，尤其是在足够大的数据集中，这些数据集可以由多台计算设备生成和/或存储。除了处理如此大量的数据所面临的挑战之外，即使以较小的程度增加数据集中的变量数量，也往往至少以指数级增加数据值之间关系的复杂性，并可能导致数据大小呈指数级增加。在这些具有挑战性的数据集中，有各种形式的统计分析生成的大量随机样本。性能测试对于确保所有行业产品和服务的质量至关重要。可靠的性能测试在很大程度上取决于测试数据是否准确，而所述测试数据并非总是可用于测试目的。因此，如果无法获得这类测试数据，开发人员和制造商将面临为测试产品和服务提供测试数据的挑战。因此，由于所述性能测试数据不可用，测试结果的精度往往不准确或具有误导性。
技术实现思路
在第在一个实施例中，提供了一种用于生成包含由多变量群体分布所分布的随机数的数据集的计算机实现方法，所述方法包括：从所述多变量群体的多维随机样本集合中构建一组经验累积分布函数，其中每个经验累积分布函数由随机变量的观察结果构建；从所述多维随机样本集合中...

【技术保护点】
1.一种用于生成包含随机数的数据集的计算机实现方法，所述随机数由多变量群体分布所分布，其特征在于，所述方法包括：/n从所述多变量群体的多维随机样本的集合中构建一组经验累积分布函数，其中每个经验累积分布函数由随机变量的观察结果构建；/n从所述多维随机样本的集合中采样多个多维样本点；/n将所述多维样本点中的每个多维样本点替换为随机邻居以生成克隆数据。/n

【技术特征摘要】
【国外来华专利技术】20170330 US 15/474,8011.一种用于生成包含随机数的数据集的计算机实现方法，所述随机数由多变量群体分布所分布，其特征在于，所述方法包括：
从所述多变量群体的多维随机样本的集合中构建一组经验累积分布函数，其中每个经验累积分布函数由随机变量的观察结果构建；
从所述多维随机样本的集合中采样多个多维样本点；
将所述多维样本点中的每个多维样本点替换为随机邻居以生成克隆数据。

2.根据权利要求1所述的计算机实现方法，其特征在于，还包括：为所述多维样本点中的一个或多个多维样本点的元素生成所述随机邻居。

3.根据权利要求2所述的计算机实现方法，其特征在于，为所述多维样本点中的所述一个或多个多维样本点的每个元素生成所述随机邻居包括：
按递增次序对所述随机变量的不同的观察值进行排序；
当所述多维样本点中的任意一个多维样本点的所述元素中的一个对应元素是所述观测值的最小值和最大值之间的一个值、所述观测值的所述最小值和所述观测值的所述最大值中的一个时，为所述对应元素生成所述随机邻居。

4.根据权利要求3所述的计算机实现方法，其特征在于，为所述对应元素生成所述随机邻居还包括：
将所述对应元素的左边界定义为一个或多个最近左邻居的所述最小值；
将所述对应元素的右边界定义为一个或多个最近右邻居的所述最大值；
生成第一随机数，所述第一随机数在由所述左边界和所述右边界构建的第一区间上均匀分布；
搜索两个相邻的观察值，以使所述相邻的观察值的经验累积分布函数范围覆盖所述第一随机数；
由所述两个相邻观察值定义第二区间；
当所述对应的随机变量为连续或离散时生成所述随机邻居。

5.根据权利要求4所述的计算机实现方法，其特征在于，当所述对应的随机变量连续时，为所述一个或多个多维随机样本点的所述元素生成所述随机邻居包括：
生成在所述第二区间上均匀分布的第二随机数。

6.根据权利要求4所述的计算机实现方法，其特征在于，当所述对应的随机变量离散时，为所述一个或多个多维随机样本点的所述元素生成所述随机邻居包括：将第二随机数定义为所述第二区间的所述右边界。

7.根据权利要求3所述的计算机实现方法，其特征在于，当所述对应的随机变量连续时，为所述一个或多个多维随机样本点的所述元素生成所述随机邻居，而所述随机邻居是所述观察值的所述最小值，包括：生成在第三区间上从所述观察值的所述最小值到另一个值均匀分布的第二随机数。

8.根据权利要求3所述的计算机实现方法，其特征在于，当所述对应的随机变量连续时，为所述一个或多个多维随机样本点的所述元素生成所述随机邻居，而所述随机邻居是所述观察值的所述最大值，包括：生成在第四区间上从非最大值观察值到所述最大值均匀分布的第二随机数。

9.根据权利要求3所述的计算机实现方法，其特征在于，当所述对应的随机变量离散时，为所述一个或多个多维随机样本点的所述元素生成所述随机邻居，而所述随机邻居是所述观察值的所述最小值，包括：从所述最小观察值的预定数量生成第二随机数。

10.根据权利要求3所述的计算机实施的方法，其特征在于，当所述对应的随机变量离散时，为所述一个或多个多维随机样本点的所述元素生成所述随机邻居，而所述随机邻居是所述观察值的所述最大值，包括：从所述最大观察值的预定数量生成第二随机数。

11.根据权利要求1至10中任一项所述的计算机实现方法，其特征在于，由一个或多个并行处理器执行将样本点的数量替换为随机邻居。

12.一种用于生成随机数的设备，所述设备用于生成包含由多变量群体分布所分布的随机数的数据集，其特征在于，包括：
非瞬时性存储器，包含指令；
一个或多个处理器，与所述存储器通信，其中所述一个或多个处理器执行所述指令完成以下操作，包括：
从所述多变量群体的多维随机样本的集合中构建一组经验累积分布函数，其中每个经验累积分布函数由随机变量的观察结果构建；
从所述多维随机样本的集合中采样多个多维样本点；
将所述多维样本点中的每个多维样本点替换为随机邻居以生成克隆数据。

13.根据权利要求12所述的设备，其特征在于，所述一...

【专利技术属性】
技术研发人员：于江生，马仕俊，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人