利用知识源进行相似性分析和数据丰富化的技术制造技术

技术编号:15397006 阅读:47 留言:0更新日期:2017-05-19 11:31
本公开内容涉及利用知识源来执行相似性度量分析和数据丰富化。数据丰富化服务能够将输入数据集与存储在知识源中的参考数据集进行比较,以识别近似相关的数据。能够计算与两个或更多个数据集的语义相似性对应的相似性度量。相似性度量能够被用来基于数据集的元数据属性和数据值来识别数据集,从而使得能够更容易地对数据值进行索引和高性能检索。输入数据集能够利用基于与输入数据集具有最佳匹配的数据集的类别来标记。输入数据集与由知识源提供的数据集的相似性能够被用来查询知识源,以获得关于数据集的附加信息。附加信息能够被用来向用户提供推荐。

Techniques for similarity analysis and data enrichment using knowledge sources

This disclosure concerns the use of knowledge sources to perform similarity measurement, analysis, and data enrichment. Data rich services are able to compare input data sets with reference data sets stored in a knowledge source to identify approximately related data. The ability to compute similarity measures corresponding to semantic similarity of two or more data sets. Similarity measures can be used to identify data sets based on metadata attributes and data values of data sets, thus enabling easier indexing and high-performance retrieval of data values. The input data set can be marked using a class based on the data set that has the best match with the input dataset. The similarity between the input data set and the data set provided by the knowledge source can be used to query the knowledge source to obtain additional information about the data set. Additional information can be used to provide recommendations to users.

【技术实现步骤摘要】
【国外来华专利技术】利用知识源进行相似性分析和数据丰富化的技术对相关申请的交叉引用本申请要求于2015年9月24日提交的标题为“TECHNIQUESFORSIMILARITYANALYSISANDDATAENRICHMENTUSINGKNOWLEDGESOURCES”的美国非临时专利申请No.14/864,485的权益和优先权,该申请要求以下申请的权益和优先权:1)于2014年9月26日提交且标题为“METHODFORSEMANTICENTITYEXTRACTIONBASEDONGRAPHMATCHINGWITHANEXTERNALKNOWLEDGEBASEANDSIMILARITYRANKINGOFDATASETMETADATAFORSEMANTICINDEXING,SEARCH,ANDRETRIEVAL”的美国临时申请No.62/056,468;2)于2015年5月18日提交且标题为“CATEGORYLABELING”的美国临时申请No.62/163,296;及3)于2015年8月11日提交且标题为“SIMILARITYMETRICANALYSISANDKNOWLEDGESCORINGSYSTEM”的美国临时申请No.62/203,806。本申请涉及以下申请:1)于2014年9月26日提交且标题为“DECLARATIVELANGUAGEANDVISUALIZATIONSYSTEMFORRECOMMENDEDDATATRANSFORMATIONSANDREPAIRS”的美国临时申请No.62/056,471;2)于2014年9月26日提交且标题为“DYNAMICVISUALPROFILINGANDVISUALIZATIONOFHIGHVOLUMEDATASETSANDREAL-TIMESMARTSAMPLINGANDSTATISTICALPROFILINGOFEXTREMELYLARGEDATASETS”的美国临时申请No.62/056,474;3)于2014年9月26日提交且标题为“AUTOMATEDENTITYCORRELATIONANDCLASSIFICATIONACROSSHETEROGENEOUSDATASETS”的美国临时申请No.62/056,475;及4)于2014年9月26日提交且标题为“DECLARATIVEEXTERNALDATASOURCEIMPORTATION,EXPORTATION,ANDMETADATAREFLECTIONUTILIZINGHTTPANDHDFSPROTOCOLS”的美国临时申请No.62/056,476。上述专利申请的全部内容通过引用被结合于此,用于所有目的。
本公开内容一般而言涉及数据准备和分析。更具体而言,公开了利用知识源来执行相似性度量分析和数据丰富化的技术。
技术介绍
在“大数据”系统可以分析数据以提供有用的结果之前,数据需要被添加到大数据系统并且被格式化,使得其可以被分析。这种数据加载对当前的云和“大数据”系统提出了挑战。通常,被添加到大数据系统的数据是有噪声的(例如,数据格式化不正确、错误、过时、包括重复等)。当分析数据(例如,用于报告、预测建模等)时,数据的差的信噪比意味着结果是无用的。因此,当前的解决方案需要大量的手动处理来清理和策展(curate)数据和/或分析结果。但是,这些手动处理不成规模。随着要添加和分析的数据量增加,手动处理变得不可能实现。大数据系统可以被实现,以分析数据来识别其它相似相关的数据。数据的处理量变成一个挑战。甚至更进一步,被分析的数据的结构或其缺乏可能对确定数据的内容和关系提出更大的挑战。可以实现机器学习以分析数据。例如,可以利用数据分析工具(例如,Word2Vec)来实现无监督式机器学习,以确定数据之间的相似性;但是,无监督式机器学习可能无法提供指示与密切相关的数据相关联的组或类别的信息。因此,无监督式学习可能无法确定密切相关的一组物种(例如,词条)的属或类别。另一方面,基于策展知识源的监督式机器学习(例如,来自马克斯普朗克信息学研究所(MaxPlanckInstituteforInformatics)的YAGO)可以为确定数据的组或类别提供更好的结果。监督式学习可能提供不一致和/或不完整的结果。由策展知识源提供的数据可能是稀疏的,并且质量可能取决于策展人。基于使用监督式学习识别出的类别可能不提供相似相关的数据的正确分类。多个知识源可以实现不同的分类,使得多个源可能难以合并。分析数据以确定相似性和关系可能由于所分析的数据中的词条拼写错误而变得更加繁重。当数据包含拼写错误时,可能不容易识别相似的数据。本专利技术的某些实施例解决这些和其它挑战。
技术实现思路
本公开内容一般而言涉及数据准备和分析。更具体而言,公开了利用知识源来执行相似性度量分析和数据丰富化的技术。本公开内容一般而言涉及提取、修复和丰富化数据集的数据丰富化服务,从而为后续的索引和聚类产生更精确的实体分辨率(resolution)和相关性。数据丰富化服务可以包括用于执行异构数据集的大规模数据准备、修复和丰富化的可视推荐引擎和语言。这使得用户能够选择和看到推荐的丰富化(例如,变换和修复)将如何影响用户的数据并根据需要进行调整。数据丰富化服务可以通过用户界面从用户接收反馈并且可以基于用户反馈过滤推荐。在一些实施例中,数据丰富化服务可以分析数据集,以识别数据中的图式(pattern)。在一些实施例中,数据丰富化服务可以将输入数据集与存储在知识源中的参考数据集进行比较,以识别近似相关的数据。可以在没有监督式训练(例如,机器学习)的情况下在输入数据和参考数据集之间执行匹配,并且可以经由来自最终用户的自适应反馈随时间的推移改进提取精度。在一些实施例中,可以计算与两个或更多个数据集的语义相似性对应的相似性度量。相似性度量可以被用来基于数据集的元数据属性和数据值来识别数据集,使得能够更容易地对数据值进行索引和高性能检索。如上面所讨论的,数据的处理量变成挑战,尤其是取决于所分析的数据的结构或缺乏结构。由于导致分类错误的参考数据集的拼写错误和策展中的差异,识别相似或相关数据变得困难。本文所述的技术提供更精细的相似性度量,其可以改进对与输入数据集具有语义相似性的紧密相关数据集的自动识别。通过识别更近似相关的数据集,可以利用来自相关数据集的数据丰富化输入数据集。输入数据集的丰富化使得用户能够理解和管理否则以其它方式可能难以管理的大量数据。例如,用户可以确定某些数据集与特定主题是否相关,并且,如果相关,则是否存在关于该主题的相关数据。在一些实施例中,可以基于相似性度量更新参考数据集,以反映与输入数据的关系。因此,可以丰富化参考数据集,以便随后在确定与其它输入数据集的相似性时使用。在一些实施例中,数据丰富化服务可以呈现图形界面,图形界面显示与输入数据集比较的多个参考数据集中每一个的相似性度量。图形界面可以使用户能够选择基于为其显示相似性度量的参考数据集之一的变换。因此,相似性度量使得用户能够选择性地选择参考数据来丰富化来自数据源的数据集。在一些实施例中,本文公开的技术提供了向用户给出从数据源接收的数据的分类的方式。该技术提供优于无监督式机器学习的优点,无监督式机器学习可能无法确定密切相关的一组本文档来自技高网
...
利用知识源进行相似性分析和数据丰富化的技术

【技术保护点】
一种方法,包括:从一个或多个输入数据源接收输入数据集;由数据丰富化服务的计算系统将输入数据集与从参考源获得的一个或多个参考数据集进行比较;由计算系统为所述一个或多个参考数据集中的每个参考数据集计算相似性度量,相似性度量指示所述一个或多个参考数据集中的每个参考数据集与输入数据集相比较的相似性的测量值;由计算系统基于相似性度量来识别输入数据集和所述一个或多个参考数据集之间的匹配;由计算系统生成图形界面,该图形界面指示为所述一个或多个参考数据集中的每个参考数据集计算的相似性度量,并且指示在输入数据集和所述一个或多个参考数据集之间识别出的匹配;及利用图形界面呈现图形可视化,该图形可视化指示为所述一个或多个参考数据集中的每个参考数据集计算的相似性度量,并且指示在输入数据集和所述一个或多个参考数据集之间识别出的匹配。

【技术特征摘要】
【国外来华专利技术】2014.09.26 US 62/056,468;2015.05.18 US 62/163,296;1.一种方法,包括:从一个或多个输入数据源接收输入数据集;由数据丰富化服务的计算系统将输入数据集与从参考源获得的一个或多个参考数据集进行比较;由计算系统为所述一个或多个参考数据集中的每个参考数据集计算相似性度量,相似性度量指示所述一个或多个参考数据集中的每个参考数据集与输入数据集相比较的相似性的测量值;由计算系统基于相似性度量来识别输入数据集和所述一个或多个参考数据集之间的匹配;由计算系统生成图形界面,该图形界面指示为所述一个或多个参考数据集中的每个参考数据集计算的相似性度量,并且指示在输入数据集和所述一个或多个参考数据集之间识别出的匹配;及利用图形界面呈现图形可视化,该图形可视化指示为所述一个或多个参考数据集中的每个参考数据集计算的相似性度量,并且指示在输入数据集和所述一个或多个参考数据集之间识别出的匹配。2.如权利要求1所述的方法,其中所述一个或多个参考数据集包括与域相关联的词条,并且其中相似性度量是为所述一个或多个参考数据集中的每个参考数据集计算的匹配得分,匹配得分利用一个或多个值来计算,所述一个或多个值包括第一值和第二值,第一值指示关于参考数据集的度量,第二值指示基于将输入数据集与参考数据集进行比较的度量。3.如权利要求2或3所述的方法,其中图形可视化被呈现为指示用来计算匹配得分的所述一个或多个值。4.如权利要求1至4中任一项所述的方法,其中所述一个或多个值包括输入数据集和所述数据集之间匹配的词条的频率值、所述数据集的母体值、指示输入数据集和所述数据集之间匹配的不同词条的数量的唯一匹配值、指示所述数据集中的词条的数量的域值,以及指示所述数据集的策展程度的策展水平。5.如权利要求1所述的方法,还包括:由计算系统基于从聚合服务获得的增强数据生成增强列表;及基于增强列表增强输入数据集;其中与所述一个或多个参考数据集相比较的输入数据基于该增强列表被增强。6.如权利要求5所述的方法,还包括:由计算系统基于所述一个或多个参考数据集生成索引化三字母组表;对于增强之后的输入数据集中的每个词:创造用于该词的多个三字母组;将所述多个三字母组中的每个三字母组与索引化三字母组表进行比较;识别索引化三字母组表中与和所述多个三字母组中的第一三字母组匹配的三字母组相关联的词;及将该词存储在三字母组增强的数据集中;将三字母组增强的数据集与所述一个或多个参考数据集进行比较;基于比较确定三字母组增强的数据集和所述一个或多个参考数据集之间的匹配;及其中,识别输入数据集和所述一个或多个参考数据集之间的匹配是利用三字母组增强的数据集和所述一个或多个参考数据集之间的基于所述比较的匹配来执行的。7.如权利要求1至6中任一项所述的方法,还包括:生成表示所述一个或多个参考数据集的至少一部分的数据结构,其中该数据结构中的每个节点表示从所述一个或多个参考数据集提取出的一个或多个字符串中的不同字符;及其中通过遍历该数据结构来将输入数据集与所述一个或多个参考数据集进行比较。8.如权利要求7所述的方法,其中相似性度量被计算为基于所述一个或多个参考数据集与输入数据集相比较的交集的基数的值,其中该值通过所述基数来规格化,并且其中该值减小基于所述一个或多个参考数据集的大小的第一因子,并且该值减小基于所述一个或多个参考数据集的类型的第二因子。9.如权利要求1至8中任一项所述的方法,其中,通过确定输入数据集和参考数据集之间的余弦相似性,为所述一个或多个参考数据集中的每个参考数据集计算相似性度量。10.如权利要求1至9中任一项所述的方法,其中识别匹配包括基于为所述一个或多个参考数据集中的每个参考数据集计算的相似性度量确定所述一个或多个参考数据集中具有最高相似性的测量值的参考数据。11.如权利要求1至10中任一项所述的方法,其中将输入数据集格式化为一列或多列数据。12.一种数据丰富化系统,包括:多个输入数据源;及云计算基础设施系统,包括:一个或多个处理器,经至少一个通信网络通信耦合到所述多个输入数据源并且通信耦合到多个数据目标;及存储器,耦合到所述一个或多个处理器,存储器存储提供数据丰富化服务的指令,其中所述指令在由所述一个或多个处理器执行时使得所述一个或多个处理器:从所述多个输入数据源中的一个或多个数据源接收输入数据集;将输入数据集与从参考源获得的一个或多个参考数据集进行比较;为所述一个或多个参考数据集中的每个参考数据集计算相似性度量,相似性度量指示所述一个或多个参考数据集中的每个参考数据集与输入数据集相比较的相似性的测量值;基于相似性度量来识别输入数据集和所述一个或多个参考数据集之间的匹配;生成图形界面,该图形界面指示为所述一个或多个参考数据集中的每个参考数据集计算的相似性度量,并且指示在输入数据集和所述一个或多个参考数据集之间识别出的匹配;及呈现图形可视化,该图形可视化指示为所述一个或多个参考数据集中的每个参考数据集计算的相似性度量,并且指示在输入数据集和所述一个或多个参考数据集之间识别出的匹配。13.如权利要求12所述的数据丰富化系统,其中所述一个或多个参考数据集包括与域相关联的词条,并且其中相似性度量是为所述一个或多个参考数据集中的每个参考数据集计算的匹配得分,匹配得分利...

【专利技术属性】
技术研发人员:A·S·斯托贾诺维克M·克雷德尔M·马拉克G·A·莫里
申请(专利权)人:甲骨文国际公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1