【技术实现步骤摘要】
用于将数据记录分组的设备、系统以及方法
[0001]本申请是申请号为201480014861.3的中国专利申请的分案申请,原申请的国际申请号为PCT/US2014/029787,申请日为2014年03月14日,优先权日为2013年03月15日,进入中国国家阶段的日期为2015年09月14日,专利技术名称为“用于将数据记录分组的设备、系统以及方法”。
[0002]相关申请的交叉引用
[0003]本申请根据35 U.S.C.
§
119(e)要求先前提交日期的权益,如下:
[0004]·
在2013年3月15日提交的,名称为“SYSTEM FOR ANALYZING AND USING LOCATION BASED BEHAVIOR”的美国临时申请No.61/799,986;
[0005]·
在2013年3月15日提交的,名称为“GEOGRAPHIC LOCATION DESCRIPTOR AND LINKER”的美国临时申请No.61/800,036;
[0006]·
在2013年3月15日提交的,名称为“SYSTEM AND METHOD FOR CROWD SOURCING DOMAIN SPECIFIC INTELLIGENCE”的美国临时申请No.61/799,131;
[0007]·
在2013年3月15日提交的,名称为“SYSTEM WITH BATCH AND REAL TIME DATA PROCESSING”的美国临时申请No.61/799 ...
【技术保护点】
【技术特征摘要】
1.一种设备,包括:处理器,其被配置成获取存储在一个或多个存储器中的指令并且执行所述指令以:从多个数据源接收多个数据记录,其中所述数据记录中的每一个包括描述实体的多个属性;从所接收的数据记录中识别一对数据记录,以及确定所述对数据记录是否有资格用于基于由所述对数据记录的所述多个属性所共享的一组预定属性的相似性值确定;当确定资格的步骤确定所述对数据记录没有资格时,从相似性值确定中排除所述对数据记录;当确定资格的步骤确定所述对数据记录有资格时,通过相似性值确定处理所述对数据记录,其中所述相似性值确定包括所述对中的一个数据记录的多个属性与所述对中的另一个数据记录的多个属性之间的相似性确定所述对数据记录的相似性值;提供一个或多个集群,其中所述集群中的每一个被配置为存储唯一实体的数据记录,以及基于所述对数据记录的所述相似性值将所述对数据记录与所述集群中的一个相关联,其中所述对数据记录所关联的所述集群被配置为存储由所述多个属性描述的所述实体的数据记录;在将所述对数据记录与所述集群相关联的步骤之后,将所述对数据记录中的所述多个属性与所述集群中的其它数据记录的属性相比较,并且确定一个或多个属性差异;基于所确定的属性差异确定所述多个属性中的一个或多个第一属性的至少一个重要性分数,其中所确定的重要性分数由所述相似性值确定用作调整用于确定所述相似性值的所述第一属性的权重的系数;以及识别由所述集群中没有经过相似性值确定的数据记录组成的另一对数据记录并且通过附加的相似性值确定处理所述另一对数据记录;其中所述附加的相似性值确定包括所述另一对数据记录中的一个数据记录的多个属性与所述另一对数据记录中的另一个数据记录的多个属性之间的相似性确定所述另一对数据记录的相似性值,以及基于所述另一对数据记录的所述相似性值将所述另一对数据记录与所述集群相关联,其中所述集群被配置为存储由所述对数据记录中的多个属性和所述另一对数据记录中的多个属性描述的所述实体的数据记录。2.根据权利要求1所述的设备,其中所述处理器被配置成基于来自先前迭代的数据记录与集群的关联,调节所述一组预定属性。3.根据权利要求1所述的设备,其中所述处理器被配置为基于从训练数据记录学习的相似性函数确定所述相似性值。4.根据权利要求3所述的设备,其中所述相似性函数用于确定与所述第一属性相关联的组件的重要性分数,其中通过如下操作学习所述相似性函数:确定在与所述训练数据记录的所述第一属性相关联的组件之间的差异,其中已知所述训练数据记录属于同一集群;以及基于所述组件在所述差异中出现的次数,确定所述组件的重要性。5.根据权利要求4所述的设备,其中所述相似性函数用于推断将数据记录的特定属性中的第一组件与第二组件互换的可能性,其中通过如下操作学习所述相似性函数:
确定在与所述训练数据记录的所述特定属性相关联的组件之间的差异,其中已知所述训练数据记录属于同一集群,以及基于所述第一组件和所述第二组件同时在所述差异中出现的次数,确定将所述第一组件与所述第二组件互换的可能性。6.根据权利要求4所述的设备,其中所述相似性函数用于确定数据记录的缺失属性具有特定组件的条件可能性,其中通过如下操作确定所述条件可能性:确定对应于特定实体的已知属性的组合;确定缺失属性在具有所述已知属性的组合的特定实体的数据记录之间的所有变化;以及假定所述数据记录具有已知属性的特定组合,基于所述缺失属性的所述变化来确定所述缺失属性具有所述特定组件的条件概率。7.根据权利要求1所述的设备,其中所述处理器被配置成:将多个数据记录表示为图中的多个节点;将所述对数据记录的所述相似性值表示为图中对应于所述对数据记录的节点之间的至少一个边;以及基于所述图确定所提供的一个或多个集群。8.根据权利要求7所述的设备,其中所述处理器被配置成基于所述图,使用图聚类技术来确定所提供的一个或多个集群。9.根据权利要求1所述的设备,其中所述处理器被配置成接收指示所述处理器将所述对数据记录与被配置为存储由所述对数据记录的所述多个属性描述的所述实体的数据记录的所述集群相关联的聚类指令。10.根据权利要求1所述的设备,其中所述处理器被配置成使用聚类技术将所述多个数据记录中的至少一个关联到被配置为存储由所述对数据记录的所述多个属性描述的所述实体的数据记录的所述集群;以及基于被配置为由所述对数据记录的所述多个属性描述的所述实体的数据记录的所述集群中的数据记录,调节所述聚类技术的参数。11.根据权利要求1所述的设备,其中所述处理器被配置成通过从另一计算装置接收所述对数据记录的所述相似性值,来确定所述对数据记录的所述相似性值。12.根据权利要求1所述的设备,其中所述处理器被配置成:处理从多个计算装置接收的在所述多个计算装置处独立识别的多个子集群;以及在所述多个子集群上执行并查操作以识别被配置为存储由所述对数据记录的所述多个属性描述的所述实体的数据记录的所述集群。13.一种方法,包括:通过所述处理器从多个数据源接收多个数据记录,其中所述数据记录中的每一个包括描述实体的多个属性;通过所述处理器从所接收的数据记录中识别一对数据记录以及通过所...
【专利技术属性】
技术研发人员:B,
申请(专利权)人:美国结构数据有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。