利用知识源进行相似性分析和数据丰富化的技术制造技术

技术编号：15397006 阅读：50 留言：0更新日期：2017-05-19 11:31

本公开内容涉及利用知识源来执行相似性度量分析和数据丰富化。数据丰富化服务能够将输入数据集与存储在知识源中的参考数据集进行比较，以识别近似相关的数据。能够计算与两个或更多个数据集的语义相似性对应的相似性度量。相似性度量能够被用来基于数据集的元数据属性和数据值来识别数据集，从而使得能够更容易地对数据值进行索引和高性能检索。输入数据集能够利用基于与输入数据集具有最佳匹配的数据集的类别来标记。输入数据集与由知识源提供的数据集的相似性能够被用来查询知识源，以获得关于数据集的附加信息。附加信息能够被用来向用户提供推荐。

Techniques for similarity analysis and data enrichment using knowledge sources

This disclosure concerns the use of knowledge sources to perform similarity measurement, analysis, and data enrichment. Data rich services are able to compare input data sets with reference data sets stored in a knowledge source to identify approximately related data. The ability to compute similarity measures corresponding to semantic similarity of two or more data sets. Similarity measures can be used to identify data sets based on metadata attributes and data values of data sets, thus enabling easier indexing and high-performance retrieval of data values. The input data set can be marked using a class based on the data set that has the best match with the input dataset. The similarity between the input data set and the data set provided by the knowledge source can be used to query the knowledge source to obtain additional information about the data set. Additional information can be used to provide recommendations to users.

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】利用知识源进行相似性分析和数据丰富化的技术对相关申请的交叉引用本申请要求于2015年9月24日提交的标题为“TECHNIQUESFORSIMILARITYANALYSISANDDATAENRICHMENTUSINGKNOWLEDGESOURCES”的美国非临时专利申请No.14/864,485的权益和优先权，该申请要求以下申请的权益和优先权：1)于2014年9月26日提交且标题为“METHODFORSEMANTICENTITYEXTRACTIONBASEDONGRAPHMATCHINGWITHANEXTERNALKNOWLEDGEBASEANDSIMILARITYRANKINGOFDATASETMETADATAFORSEMANTICINDEXING，SEARCH，ANDRETRIEVAL”的美国临时申请No.62/056,468；2)于2015年5月18日提交且标题为“CATEGORYLABELING”的美国临时申请No.62/163,296；及3)于2015年8月11日提交且标题为“SIMILARITYMETRICANALYSISANDKNOWLEDGESCORINGSYSTEM”的美国临时申请No.62/203,806。本申请涉及以下申请：1)于2014年9月26日提交且标题为“DECLARATIVELANGUAGEANDVISUALIZATIONSYSTEMFORRECOMMENDEDDATATRANSFORMATIONSANDREPAIRS”的美国临时申请No.62/056,471；2)于2014年9月26日提交且标题为“DYNAMICVISUALP...
利用知识源进行相似性分析和数据丰富化的技术

【技术保护点】
一种方法，包括：从一个或多个输入数据源接收输入数据集；由数据丰富化服务的计算系统将输入数据集与从参考源获得的一个或多个参考数据集进行比较；由计算系统为所述一个或多个参考数据集中的每个参考数据集计算相似性度量，相似性度量指示所述一个或多个参考数据集中的每个参考数据集与输入数据集相比较的相似性的测量值；由计算系统基于相似性度量来识别输入数据集和所述一个或多个参考数据集之间的匹配；由计算系统生成图形界面，该图形界面指示为所述一个或多个参考数据集中的每个参考数据集计算的相似性度量，并且指示在输入数据集和所述一个或多个参考数据集之间识别出的匹配；及利用图形界面呈现图形可视化，该图形可视化指示为所述一个或多个参考数据集中的每个参考数据集计算的相似性度量，并且指示在输入数据集和所述一个或多个参考数据集之间识别出的匹配。

【技术特征摘要】
【国外来华专利技术】2014.09.26 US 62/056,468;2015.05.18 US 62/163,296;1.一种方法，包括：从一个或多个输入数据源接收输入数据集；由数据丰富化服务的计算系统将输入数据集与从参考源获得的一个或多个参考数据集进行比较；由计算系统为所述一个或多个参考数据集中的每个参考数据集计算相似性度量，相似性度量指示所述一个或多个参考数据集中的每个参考数据集与输入数据集相比较的相似性的测量值；由计算系统基于相似性度量来识别输入数据集和所述一个或多个参考数据集之间的匹配；由计算系统生成图形界面，该图形界面指示为所述一个或多个参考数据集中的每个参考数据集计算的相似性度量，并且指示在输入数据集和所述一个或多个参考数据集之间识别出的匹配；及利用图形界面呈现图形可视化，该图形可视化指示为所述一个或多个参考数据集中的每个参考数据集计算的相似性度量，并且指示在输入数据集和所述一个或多个参考数据集之间识别出的匹配。2.如权利要求1所述的方法，其中所述一个或多个参考数据集包括与域相关联的词条，并且其中相似性度量是为所述一个或多个参考数据集中的每个参考数据集计算的匹配得分，匹配得分利用一个或多个值来计算，所述一个或多个值包括第一值和第二值，第一值指示关于参考数据集的度量，第二值指示基于将输入数据集与参考数据集进行比较的度量。3.如权利要求2或3所述的方法，其中图形可视化被呈现为指示用来计算匹配得分的所述一个或多个值。4.如权利要求1至4中任一项所述的方法，其中所述一个或多个值包括输入数据集和所述数据集之间匹配的词条的频率值、所述数据集的母体值、指示输入数据集和所述数据集之间匹配的不同词条的数量的唯一匹配值、指示所述数据集中的词条的数量的域值，以及指示所述数据集的策展程度的策展水平。5.如权利要求1所述的方法，还包括：由计算系统基于从聚合服务获得的增强数据生成增强列表；及基于增强列表增强输入数据集；其中与所述一个或多个参考数据集相比较的输入数据基于该增强列表被增强。6.如权利要求5所述的方法，还包括：由计算系统基于所述一个或多个参考数据集生成索引化三字母组表；对于增强之后的输入数据集中的每个词：创造用于该词的多个三字母组；将所述多个三字母组中的每个三字母组与索引化三字母组表进行比较；识别索引化三字母组表中与和所述多个三字母组中的第一三字母组匹配的三字母组相关联的词；及将该词存储在三字母组增强的数据集中；将三字母组增强的数据集与所述一个或多个参考数据集进行比较；基于比较确定三字母组增强的数据集和所述一个或多个参考数据集之间的匹配；及其中，识别输入数据集和所述一个或多个参考数据集之间的匹配是利用三字母组增强的数据集和所述一个或多个参考数据集之间的基于所述比较的匹配来执行的。7.如权利要求1至6中任一项所述的方法，还包括：生成表示所述一个或多个参考数据集的至少一部分的数据结构，其中该数据结构中的每个节点表示从所述一个或多个参考数据集提取出的一个或多个字符串中的不同字符；及其中通过遍历该数据结构来将输入数据集与所述一个或多个参考数据集进行比较。8.如权利要求7所述的方法，其中相似性度量被计算为基于所述一个或多个参考数据集与输入数据集相比较的交集的基数的值，其中该值通过所述基数来规格化，并且其中该值减小基于所述一个或多个参考数据集的大小的第一因子，并且该值减小基于所述一个或多个参考数据集的类型的第二因子。9.如权利要求1至8中任一项所述的方法，其中，通过确定输入数据集和参考数据集之间的余弦相似性，为所述一个或多个参考数据集中的每个参考数据集计算相似性度量。10.如权利要求1至9中任一项所述的方法，其中识别匹配包括基于为所述一个或多个参考数据集中的每个参考数据集计算的相似性度量确定所述一个或多个参考数据集中具有最高相似性的测量值的参考数据。11.如权利要求1至10中任一项所述的方法，其中将输入数据集格式化为一列或多列数据。12.一种数据丰富化系统，包括：多个输入数据源；及云计算基础设施系统，包括：一个或多个处理器，经至少一个通信网络通信耦合到所述多个输入数据源并且通信耦合到多个数据目标；及存储器，耦合到所述一个或多个处理器，存储器存储提供数据丰富化服务的指令，其中所述指令在由所述一个或多个处理器执行时使得所述一个或多个处理器：从所述多个输入数据源中的一个或多个数据源接收输入数据集；将输入数据集与从参考源获得的一个或多个参考数据集进行比较；为所述一个或多个参考数据集中的每个参考数据集计算相似性度量，相似性度量指示所述一个或多个参考数据集中的每个参考数据集与输入数据集相比较的相似性的测量值；基于相似性度量来识别输入数据集和所述一个或多个参考数据集之间的匹配；生成图形界面，该图形界面指示为所述一个或多个参考数据集中的每个参考数据集计算的相似性度量，并且指示在输入数据集和所述一个或多个参考数据集之间识别出的匹配；及呈现图形可视化，该图形可视化指示为所述一个或多个参考数据集中的每个参考数据集计算的相似性度量，并且指示在输入数据集和所述一个或多个参考数据集之间识别出的匹配。13.如权利要求12所述的数据丰富化系统，其中所述一个或多个参考数据集包括与域相关联的词条，并且其中相似性度量是为所述一个或多个参考数据集中的每个参考数据集计算的匹配得分，匹配得分利...

【专利技术属性】
技术研发人员：A·S·斯托贾诺维克，M·克雷德尔，M·马拉克，G·A·莫里，
申请(专利权)人：甲骨文国际公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人