基于样本的多维数据克隆制造技术

技术编号:23242325 阅读:32 留言:0更新日期:2020-02-04 20:31
本发明专利技术涉及生成包含由多变量群体分布所分布的随机数的数据集的技术。从所述多变量群体的多维随机样本集合中构建一组经验累积分布函数,其中每个经验累积分布函数由随机变量的观察结果构建。从所述多维随机样本集合中采样多个多维样本点,并将所述多个多维样本点分别替换为随机邻居以生成克隆数据。

Multidimensional data cloning based on samples

【技术实现步骤摘要】
【国外来华专利技术】基于样本的多维数据克隆相关申请案交叉申请本专利技术要求于2017年3月30日递交的专利技术名称为“基于样本的多维数据克隆”的第15/474801号美国非临时专利申请案以及于2018年3月27日递交的专利技术名称为“基于样本的多维数据克隆”的申请号为PCT/CN2018/080707的国际专利申请的在先申请优先权,该在先申请的内容以引入的方式并入本文中。
本专利技术涉及生成随机数的

技术介绍
包含大量变量的数据越来越常见,尤其是在足够大的数据集中,这些数据集可以由多台计算设备生成和/或存储。除了处理如此大量的数据所面临的挑战之外,即使以较小的程度增加数据集中的变量数量,也往往至少以指数级增加数据值之间关系的复杂性,并可能导致数据大小呈指数级增加。在这些具有挑战性的数据集中,有各种形式的统计分析生成的大量随机样本。性能测试对于确保所有行业产品和服务的质量至关重要。可靠的性能测试在很大程度上取决于测试数据是否准确,而所述测试数据并非总是可用于测试目的。因此,如果无法获得这类测试数据,开发人员和制造商将面临为测试产品和服务提供测试数据的挑战。因此,由于所述性能测试数据不可用,测试结果的精度往往不准确或具有误导性。
技术实现思路
在第在一个实施例中,提供了一种用于生成包含由多变量群体分布所分布的随机数的数据集的计算机实现方法,所述方法包括:从所述多变量群体的多维随机样本集合中构建一组经验累积分布函数,其中每个经验累积分布函数由随机变量的观察结果构建;从所述多维随机样本集合中采样多个多维样本点;将所述多维样本点中的每个多维样本点替换为随机邻居以生成克隆数据。在根据前述任一实施例的第二实施例中,所述计算机实现的方法还包括:为所述多维随机样本点中的一个或多个多维随机样本点的元素生成所述随机邻居。在根据前述任一实施例的第三实施例中,为所述一个或多个多维样本点的每个元素生成所述随机邻居包括:按递增次序对所述随机变量的不同观察值进行排序;当所述对应元素是所述观测值的最小值和最大值之间的一个值、所述观测值的所述最小值和所述观测值的所述最大值中的一个时,为所述多维样本点中的任意一个多维样本点的所述元素中的一个对应元素生成所述随机邻居。在根据前述任一实施例的第四实施例中,为所述对应元素生成所述随机邻居还包括:将所述对应元素的左边界定义为一个或多个最近左邻居的所述最小值;将所述对应元素的右边界定义为一个或多个最近右邻居的所述最大值;生成第一随机数,所述第一随机数在由所述左边界和所述右边界构建的第一区间上均匀分布;搜索相邻两个观察值,以使所述相邻观察值的经验累积分布函数范围覆盖所述第一随机数;由所述两个相邻观察值定义第二区间;当所述对应的随机变量为连续或离散时生成所述随机邻居。在根据前述任一实施例的第五实施例中,当所述对应的随机变量连续时为所述一个或多个多维随机样本点的所述元素生成所述随机邻居包括:生成在所述第二区间上均匀分布的第二随机数。在根据前述任一实施例的第六实施例中,当所述对应的随机变量离散时为所述一个或多个多维随机样本点的所述元素生成所述随机邻居包括:将第二随机数定义为所述第二区间的所述右边界。在根据前述任一实施例的第七实施例中,当所述对应的随机变量连续时为所述一个或多个多维随机样本点的所述元素生成所述随机邻居,而所述随机邻居是所述观察值的所述最小值,包括:生成在第三区间上从所述观察值的所述最小值到另一个值均匀分布的第二随机数。在根据前述任一实施例的第八实施例中,当所述对应的随机变量连续时为所述一个或多个多维随机样本点的所述元素生成所述随机邻居,而所述随机邻居是所述观察值的所述最大值,包括:生成在第四区间上从非最大值观察值到所述最大值均匀分布的第二随机数。在根据前述任一实施例的第九实施例中,当所述对应的随机变量离散时为所述一个或多个多维随机样本点的所述元素生成所述随机邻居,而所述随机邻居是所述观察值的所述最小值,包括:从所述最小观察值的预定数量生成第二随机数。在根据前述任一实施例的第十实施例中,当所述对应的随机变量离散时为所述一个或多个多维随机样本点的所述元素生成所述随机邻居,而所述随机邻居是所述观察值的所述最大值,包括:从所述最大观察值的预定数量生成第二随机数。在根据前述任一实施例的第十在一个实施例中,由一个或多个并行处理器执行将样本点的数量替换为随机邻居。在第十二实施例中,提供了一种用于生成包含由多变量群体分布所分布的随机数的数据集的设备,包括:非瞬时性存储器,包含指令;一个或多个处理器,与所述存储器通信,其中所述一个或多个处理器执行所述指令完成以下操作,包括:从所述多变量群体的多维随机样本集合中构建一组经验累积分布函数,其中每个经验累积分布函数由随机变量的观察结果构建;从所述多维随机样本集合中采样多个多维样本点;将所述多维样本点中的每个多维样本点替换为随机邻居以生成克隆数据。在第十三个实施例中,一种存储计算机指令的非瞬时性计算机可读介质,所述计算机指令用于生成包含由多变量群体分布所分布的随机数的数据集,当所述一个或多个处理器执行所述计算机指令时,执行以下步骤:从所述多变量群体的多维随机样本集合中构建一组经验累积分布函数,其中每个经验累积分布函数由随机变量的观察结果构建;从所述多维随机样本集合中采样多个多维样本点;将所述多维样本点中的每个多维样本点替换为随机邻居以生成克隆数据。提供本
技术实现思路
是为了以简化的形式引入概念的选择,这些概念将在以下具体实施方式中进行进一步的描述。本
技术实现思路
的目的不在于识别权利要求书保护的主题的关键特征或必要特征,也不在于帮助确定权利要求书保护的主题的范围。权利要求书保护的主题不限于用于解决在
技术介绍
中提到的任何或全部缺点的实现方式。附图说明本专利技术的方面通过举例的方式示出但不受附图的限制,附图中相同的附图标记表示元件;图1为可以实现本专利技术实施例的分布式数据处理系统的示例;图2为在图1的所述分布式数据处理系统中实现的示例仿真系统;图3A示出了根据一个示例实施例的经验累积分布函数;图3B示出了图3A中计算的两个分布函数之间的Kolmogorov距离;图4A示出了在图1和图2所示环境中实现的总体流程图;图4B示出了根据图4A生成样本的随机邻居;图5A-5G示出了根据图1-2、图4和图6的流程图;图6示出了可用于实现各种实施例的网络系统的方框图。具体实施方式本专利技术涉及用于生成按群体分布所分布的随机数的技术。在统计学上,传统的重采样方法(例如自举法或刀切法)可以使用数据子集或通过替换从一组数据点随机抽取来估计所述样本统计(例如,中位数、方差、百分位数)的精度。在这种情况下,不会生成新的样本点。也就是说,只能对其它可用数据的数据点进行采样。因此,如果数据不可用,则不能用作所述重采样方法的一部分。根据本专利技术的实施例,所提出的方法可以生成随机数,其特征是所述数据中的数据点(样本)将不可用于消费本文档来自技高网
...

【技术保护点】
1.一种用于生成包含随机数的数据集的计算机实现方法,所述随机数由多变量群体分布所分布,其特征在于,所述方法包括:/n从所述多变量群体的多维随机样本的集合中构建一组经验累积分布函数,其中每个经验累积分布函数由随机变量的观察结果构建;/n从所述多维随机样本的集合中采样多个多维样本点;/n将所述多维样本点中的每个多维样本点替换为随机邻居以生成克隆数据。/n

【技术特征摘要】
【国外来华专利技术】20170330 US 15/474,8011.一种用于生成包含随机数的数据集的计算机实现方法,所述随机数由多变量群体分布所分布,其特征在于,所述方法包括:
从所述多变量群体的多维随机样本的集合中构建一组经验累积分布函数,其中每个经验累积分布函数由随机变量的观察结果构建;
从所述多维随机样本的集合中采样多个多维样本点;
将所述多维样本点中的每个多维样本点替换为随机邻居以生成克隆数据。


2.根据权利要求1所述的计算机实现方法,其特征在于,还包括:为所述多维样本点中的一个或多个多维样本点的元素生成所述随机邻居。


3.根据权利要求2所述的计算机实现方法,其特征在于,为所述多维样本点中的所述一个或多个多维样本点的每个元素生成所述随机邻居包括:
按递增次序对所述随机变量的不同的观察值进行排序;
当所述多维样本点中的任意一个多维样本点的所述元素中的一个对应元素是所述观测值的最小值和最大值之间的一个值、所述观测值的所述最小值和所述观测值的所述最大值中的一个时,为所述对应元素生成所述随机邻居。


4.根据权利要求3所述的计算机实现方法,其特征在于,为所述对应元素生成所述随机邻居还包括:
将所述对应元素的左边界定义为一个或多个最近左邻居的所述最小值;
将所述对应元素的右边界定义为一个或多个最近右邻居的所述最大值;
生成第一随机数,所述第一随机数在由所述左边界和所述右边界构建的第一区间上均匀分布;
搜索两个相邻的观察值,以使所述相邻的观察值的经验累积分布函数范围覆盖所述第一随机数;
由所述两个相邻观察值定义第二区间;
当所述对应的随机变量为连续或离散时生成所述随机邻居。


5.根据权利要求4所述的计算机实现方法,其特征在于,当所述对应的随机变量连续时,为所述一个或多个多维随机样本点的所述元素生成所述随机邻居包括:
生成在所述第二区间上均匀分布的第二随机数。


6.根据权利要求4所述的计算机实现方法,其特征在于,当所述对应的随机变量离散时,为所述一个或多个多维随机样本点的所述元素生成所述随机邻居包括:将第二随机数定义为所述第二区间的所述右边界。


7.根据权利要求3所述的计算机实现方法,其特征在于,当所述对应的随机变量连续时,为所述一个或多个多维随机样本点的所述元素生成所述随机邻居,而所述随机邻居是所述观察值的所述最小值,包括:生成在第三区间上从所述观察值的所述最小值到另一个值均匀分布的第二随机数。


8.根据权利要求3所述的计算机实现方法,其特征在于,当所述对应的随机变量连续时,为所述一个或多个多维随机样本点的所述元素生成所述随机邻居,而所述随机邻居是所述观察值的所述最大值,包括:生成在第四区间上从非最大值观察值到所述最大值均匀分布的第二随机数。


9.根据权利要求3所述的计算机实现方法,其特征在于,当所述对应的随机变量离散时,为所述一个或多个多维随机样本点的所述元素生成所述随机邻居,而所述随机邻居是所述观察值的所述最小值,包括:从所述最小观察值的预定数量生成第二随机数。


10.根据权利要求3所述的计算机实施的方法,其特征在于,当所述对应的随机变量离散时,为所述一个或多个多维随机样本点的所述元素生成所述随机邻居,而所述随机邻居是所述观察值的所述最大值,包括:从所述最大观察值的预定数量生成第二随机数。


11.根据权利要求1至10中任一项所述的计算机实现方法,其特征在于,由一个或多个并行处理器执行将样本点的数量替换为随机邻居。


12.一种用于生成随机数的设备,所述设备用于生成包含由多变量群体分布所分布的随机数的数据集,其特征在于,包括:
非瞬时性存储器,包含指令;
一个或多个处理器,与所述存储器通信,其中所述一个或多个处理器执行所述指令完成以下操作,包括:
从所述多变量群体的多维随机样本的集合中构建一组经验累积分布函数,其中每个经验累积分布函数由随机变量的观察结果构建;
从所述多维随机样本的集合中采样多个多维样本点;
将所述多维样本点中的每个多维样本点替换为随机邻居以生成克隆数据。


13.根据权利要求12所述的设备,其特征在于,所述一...

【专利技术属性】
技术研发人员:于江生马仕俊
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1