用于将数据记录分组的设备、系统以及方法技术方案

技术编号:32832539 阅读:28 留言:0更新日期:2022-03-26 20:47
本申请涉及基于由数据记录引用的实体,用于将数据记录分组的设备、系统和方法。所公开的分组机构可包括确定在大量数据记录之间的成对相似性,以及基于它们的成对相似性来聚类数据记录的子集。数据记录的子集。数据记录的子集。

【技术实现步骤摘要】
用于将数据记录分组的设备、系统以及方法
[0001]本申请是申请号为201480014861.3的中国专利申请的分案申请,原申请的国际申请号为PCT/US2014/029787,申请日为2014年03月14日,优先权日为2013年03月15日,进入中国国家阶段的日期为2015年09月14日,专利技术名称为“用于将数据记录分组的设备、系统以及方法”。
[0002]相关申请的交叉引用
[0003]本申请根据35 U.S.C.
§
119(e)要求先前提交日期的权益,如下:
[0004]·
在2013年3月15日提交的,名称为“SYSTEM FOR ANALYZING AND USING LOCATION BASED BEHAVIOR”的美国临时申请No.61/799,986;
[0005]·
在2013年3月15日提交的,名称为“GEOGRAPHIC LOCATION DESCRIPTOR AND LINKER”的美国临时申请No.61/800,036;
[0006]·
在2013年3月15日提交的,名称为“SYSTEM AND METHOD FOR CROWD SOURCING DOMAIN SPECIFIC INTELLIGENCE”的美国临时申请No.61/799,131;
[0007]·
在2013年3月15日提交的,名称为“SYSTEM WITH BATCH AND REAL TIME DATA PROCESSING”的美国临时申请No.61/799,846;以及
[0008]·
在2013年3月15日提交的,名称为“SYSTEM FOR ASSIGNING SCORES TO LOCATION ENTITIES”的美国临时申请No.61/799,817。
[0009]本申请同样涉及:
[0010]·
在同一日期与此一道提交的,名称为“APPARATUS,SYSTEMS,AND METHODS FOR ANALYZING MOVEMENTS OF TARGET ENTITIES”的美国专利申请No.14/214,208;
[0011]·
在同一日期与此一道提交的,名称为“APPARATUS,SYSTEMS,AND METHODS FOR PROVIDING LOCATION INFORMATION”的美国专利申请No.14/214,296;
[0012]·
在同一日期与此一道提交的,名称为“APPARATUS,SYSTEMS,AND METHODS FOR CROWDSOURCING DOMAIN SPECIFIC INTELLIGENCE”的美国专利申请No.14/214,213;
[0013]·
在同一日期与此一道提交的,名称为“APPARATUS,SYSTEMS,AND METHODS FOR BATCH AND REALTIME DATA PROCESSING”的美国专利申请No.14/214,219;
[0014]·
在同一日期与此一道提交的,名称为“APPARATUS,SYSTEMS,AND METHODS FOR ANALYZING CHARACTERISTICS OF ENTITIES OF INTEREST”的美国专利申请No.14/214,309;以及
[0015]·
在同一日期与此一道提交的,名称为“APPARATUS,SYSTEMS,AND METHODS FOR GROUPING DATA RECORDS”的美国专利申请No.14/214,231。
[0016]以上引用的申请(包括临时申请和非临时申请两者)中的每一个申请的整体内容通过引用并入本文。


[0017]本公开一般涉及用于将与实体相关联的数据记录分组的设备、系统和方法。

技术介绍

[0018]每天有大量的信息被创建。社交网站和博客站点每天接收数以百万计的新帖子,并且不断产生新网页以提供关于个人、重大事件、企业,或人们关注的任何其它实体的信息。此外,信息通常不能从单个存储库获得,而一般分布在通常位于世界各地的数以百万计的存储库中。
[0019]由于信息的绝对数量和分布性质,人们难以有效地消费信息。为了解决这个问题,数据分析系统可以(1)使用爬虫(crawler)收集信息,以及(2)创建所收集信息的有意义的摘要,以使得可容易地消费信息。例如,数据分析系统将期望收集与诸如Factual的特定实体相关联的所有可用的数据记录,并且提供数据记录的有意义的摘要,以使得用户可容易地消费关于特定实体的信息。
[0020]遗憾的是,创建所收集信息的有意义的摘要是具有挑战性的,因为通常情况下,尤其是在以十亿尺度计的记录中,不清楚两个或更多数据记录与同一实体、相关实体是否相关联,或者根本不相关联。因此,需要一种有效的机构,以解决两个或更多数据记录是否提供关于同一实体、相关实体或者独立实体的信息。

技术实现思路

[0021]通常,在一方面,所公开主题的实施例可包括一种设备。设备包括被配置成运行存储在存储器中的一个或多个模块的处理器。一个或多个模块被配置成识别针对其确定相似性值的至少一对数据记录;至少部分地基于与至少一对数据记录相关联的多个属性,确定至少一对数据记录的相似性值;以及基于至少一对数据记录的相似性值,将至少一对数据记录与一个或多个集群相关联,每个集群与唯一实体相关联。
[0022]通常,在一方面,所公开主题的实施例可包括用于将多个数据记录聚类成至少一个集群的方法。方法包括:在位于计算装置中的候选精简模块处,识别多个数据记录中针对其确定相似性值的至少一对数据记录;在位于计算装置中并与候选精简模块通信的相似性运算模块处,至少部分地基于与至少一对数据记录相关联的多个属性,确定至少一对数据记录的相似性值;以及在位于计算装置中并与相似性运算模块通信的的聚类运算模块处,基于至少一对数据记录的相似性值,将至少一对数据记录与一个或多个集群相关联,每个集群均与唯一实体相关联。
[0023]通常,在一方面,所公开主题的实施例可包括一种计算机程序产品,其有形地体现在非暂时性计算机可读存储介质中。计算机程序产品包括指令,该指令可操作以使数据处理系统识别针对其确定相似性值的至少一对数据记录;至少部分地基于与至少一对数据记录相关联的多个属性,确定至少一对数据记录的相似性值;以及基于至少一对数据记录的相似性值,将至少一对数据记录与一个或多个集群相关联,每个集群与唯一实体相关联。
[0024]通常,在一方面,所公开主题的实施例可包括用于将多个数据记录聚类成至少一个集群的方法。该方法包括在一个或多个模块处,识别多个数据记录中针对其确定相似性值的至少一对数据记录;在一个或多个模块处,至少部分地基于与至少一对数据记录相关联的多个属性,确定至少一对数据记录的相似性值;以及在与相似性运算模块通信的一个或多个模块处,基于至少一对数据记录的相本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种设备,包括:处理器,其被配置成获取存储在一个或多个存储器中的指令并且执行所述指令以:从多个数据源接收多个数据记录,其中所述数据记录中的每一个包括描述实体的多个属性;从所接收的数据记录中识别一对数据记录,以及确定所述对数据记录是否有资格用于基于由所述对数据记录的所述多个属性所共享的一组预定属性的相似性值确定;当确定资格的步骤确定所述对数据记录没有资格时,从相似性值确定中排除所述对数据记录;当确定资格的步骤确定所述对数据记录有资格时,通过相似性值确定处理所述对数据记录,其中所述相似性值确定包括所述对中的一个数据记录的多个属性与所述对中的另一个数据记录的多个属性之间的相似性确定所述对数据记录的相似性值;提供一个或多个集群,其中所述集群中的每一个被配置为存储唯一实体的数据记录,以及基于所述对数据记录的所述相似性值将所述对数据记录与所述集群中的一个相关联,其中所述对数据记录所关联的所述集群被配置为存储由所述多个属性描述的所述实体的数据记录;在将所述对数据记录与所述集群相关联的步骤之后,将所述对数据记录中的所述多个属性与所述集群中的其它数据记录的属性相比较,并且确定一个或多个属性差异;基于所确定的属性差异确定所述多个属性中的一个或多个第一属性的至少一个重要性分数,其中所确定的重要性分数由所述相似性值确定用作调整用于确定所述相似性值的所述第一属性的权重的系数;以及识别由所述集群中没有经过相似性值确定的数据记录组成的另一对数据记录并且通过附加的相似性值确定处理所述另一对数据记录;其中所述附加的相似性值确定包括所述另一对数据记录中的一个数据记录的多个属性与所述另一对数据记录中的另一个数据记录的多个属性之间的相似性确定所述另一对数据记录的相似性值,以及基于所述另一对数据记录的所述相似性值将所述另一对数据记录与所述集群相关联,其中所述集群被配置为存储由所述对数据记录中的多个属性和所述另一对数据记录中的多个属性描述的所述实体的数据记录。2.根据权利要求1所述的设备,其中所述处理器被配置成基于来自先前迭代的数据记录与集群的关联,调节所述一组预定属性。3.根据权利要求1所述的设备,其中所述处理器被配置为基于从训练数据记录学习的相似性函数确定所述相似性值。4.根据权利要求3所述的设备,其中所述相似性函数用于确定与所述第一属性相关联的组件的重要性分数,其中通过如下操作学习所述相似性函数:确定在与所述训练数据记录的所述第一属性相关联的组件之间的差异,其中已知所述训练数据记录属于同一集群;以及基于所述组件在所述差异中出现的次数,确定所述组件的重要性。5.根据权利要求4所述的设备,其中所述相似性函数用于推断将数据记录的特定属性中的第一组件与第二组件互换的可能性,其中通过如下操作学习所述相似性函数:
确定在与所述训练数据记录的所述特定属性相关联的组件之间的差异,其中已知所述训练数据记录属于同一集群,以及基于所述第一组件和所述第二组件同时在所述差异中出现的次数,确定将所述第一组件与所述第二组件互换的可能性。6.根据权利要求4所述的设备,其中所述相似性函数用于确定数据记录的缺失属性具有特定组件的条件可能性,其中通过如下操作确定所述条件可能性:确定对应于特定实体的已知属性的组合;确定缺失属性在具有所述已知属性的组合的特定实体的数据记录之间的所有变化;以及假定所述数据记录具有已知属性的特定组合,基于所述缺失属性的所述变化来确定所述缺失属性具有所述特定组件的条件概率。7.根据权利要求1所述的设备,其中所述处理器被配置成:将多个数据记录表示为图中的多个节点;将所述对数据记录的所述相似性值表示为图中对应于所述对数据记录的节点之间的至少一个边;以及基于所述图确定所提供的一个或多个集群。8.根据权利要求7所述的设备,其中所述处理器被配置成基于所述图,使用图聚类技术来确定所提供的一个或多个集群。9.根据权利要求1所述的设备,其中所述处理器被配置成接收指示所述处理器将所述对数据记录与被配置为存储由所述对数据记录的所述多个属性描述的所述实体的数据记录的所述集群相关联的聚类指令。10.根据权利要求1所述的设备,其中所述处理器被配置成使用聚类技术将所述多个数据记录中的至少一个关联到被配置为存储由所述对数据记录的所述多个属性描述的所述实体的数据记录的所述集群;以及基于被配置为由所述对数据记录的所述多个属性描述的所述实体的数据记录的所述集群中的数据记录,调节所述聚类技术的参数。11.根据权利要求1所述的设备,其中所述处理器被配置成通过从另一计算装置接收所述对数据记录的所述相似性值,来确定所述对数据记录的所述相似性值。12.根据权利要求1所述的设备,其中所述处理器被配置成:处理从多个计算装置接收的在所述多个计算装置处独立识别的多个子集群;以及在所述多个子集群上执行并查操作以识别被配置为存储由所述对数据记录的所述多个属性描述的所述实体的数据记录的所述集群。13.一种方法,包括:通过所述处理器从多个数据源接收多个数据记录,其中所述数据记录中的每一个包括描述实体的多个属性;通过所述处理器从所接收的数据记录中识别一对数据记录以及通过所...

【专利技术属性】
技术研发人员:B
申请(专利权)人:美国结构数据有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1