用于推荐的数据变换和修复的声明性语言和可视化系统技术方案

技术编号:15448426 阅读:93 留言:0更新日期:2017-05-31 09:32
本公开内容一般而言涉及提取、修复和丰富化数据集的数据丰富化服务,从而为后续的索引和聚类产生更精确的实体分辨和相关。数据丰富化服务能够包括用于执行异构数据集的大规模数据准备、修复和丰富化的可视推荐引擎和语言。这使得用户能够选择和看到推荐的丰富化(例如,变换和修复)将如何影响用户的数据并根据需要进行调整。数据丰富化服务能够通过用户界面从用户接收反馈并且能够基于用户反馈过滤推荐。

Declarative languages and visualization systems for recommended data transformations and fixes

The disclosure generally relates to data enrichment services for extracting, repairing, and enriching data sets, resulting in more accurate entity resolution and correlation for subsequent indexing and clustering. Data enrichment services can include visual recommendation engines and languages for large-scale data preparation, repair, and enrichment for performing heterogeneous data sets. This allows the user to select and see how the recommended enrichment (e.g., transformation and repair) affects the user's data and adjusts as needed. Data enrichment services can receive feedback from users through the user interface and can filter recommendations based on user feedback.

【技术实现步骤摘要】
【国外来华专利技术】对相关申请的交叉引用本申请要求于2015年9月24日提交的标题为“DECLARATIVELANGUAGEANDVISUALIZATIONSYSTEMFORRECOMMENDEDDATATRANSFORMATIONSANDREPAIRS”的美国非临时专利申请No.14/864,496的权益和优先权,该申请要求于2014年9月26日提交的标题为“DECLARATIVELANGUAGEANDVISUALIZATIONSYSTEMFORRECOMMENDEDDATATRANSFORMATIONSANDREPAIRS”的美国临时申请No.62/056,471的权益和优先权。本申请涉及以下申请:1)于2014年9月26日提交且标题为“METHODFORSEMANTICENTITYEXTRACTIONBASEDONGRAPHMATCHINGWITHANEXTERNALKNOWLEDGEBASEANDSIMILARITYRANKINGOFDATASETMETADATAFORSEMANTICINDEXING,SEARCH,ANDRETRIEVAL”的美国临时申请No.62/056,468;2)于2014年9月26日提交且标题为“DYNAMICVISUALPROFILINGANDVISUALIZATIOOFHIGHVOLUMEDATASETSANDREAL-TIMESMARTSAMPLINGANDSTATISTICALPROFILINGOFEXTREMELYLARGEDATASETS”的美国临时申请No.62/056,474;3)于2014年9月26日提交且标题为“AUTOMATEDENTITYCORRELATIONANDCLASSIFICATIONACROSSHETEROGENEOUSDATASETS”的美国临时申请No.62/056,475;4)于2014年9月26日提交且标题为“DECLARATIVEEXTERNALDATASOURCEIMPORTATION,EXPORTATION,ANDMETADATAREFLECTIONUTILIZINGHTTPANDHDFSPROTOCOLS”的美国临时申请No.62/056,476;5)于2015年5月18日提交且标题为“CATEGORYLABELING”的美国临时申请No.62/163,296;及6)于2015年8月11日提交且标题为“SIMILARITYMETRICANALYSISANDKNOWLEDGESCORINGSYSTEM”的美国临时申请No.62/203,806。上述专利申请的全部内容通过引用被结合于此,用于所有目的。
本公开内容一般而言涉及数据准备和分析。更具体而言,公开了用于为推荐的数据变换和修复生成和显示交互式可视化的技术。
技术实现思路
本公开内容一般而言涉及提取、修复和丰富化数据集的数据丰富化服务,从而为后续的索引和聚类产生更精确的实体分辨(resolution)和相关。数据丰富化服务可以包括用于执行异构数据集的大规模数据准备、修复和丰富化的可视推荐引擎和语言。这使得用户能够选择和看到推荐的丰富化(例如,变换和修复)将如何影响用户的数据并根据需要进行调整。数据丰富化服务可以通过用户界面从用户接收反馈并且可以基于用户反馈过滤推荐。在一些实施例中,可以实现计算系统,用于生成和显示用于推荐的数据变换和修复的交互式可视化。计算系统可以实现数据丰富化服务。计算系统可以被配置为实现本文所述的方法和操作。在一些实施例中,公开了用于生成和显示用于推荐的数据变换和修复的交互式可视化的系统。该系统可以包括多个数据源和多个数据目标。该系统可以包括云计算基础设施系统,其包括通信耦合到多个数据源并经至少一个通信网络通信耦合到多个数据目标的一个或多个处理器。云计算基础设施系统可以包括耦合到一个或多个处理器的存储器,存储器存储指令以提供数据丰富化服务,其中当指令被一个或多个处理器执行时使得这一个或多个处理器执行本文所述的一个或多个方法或操作。还有其它实施例涉及系统和机器可读有形存储介质,其采用或存储用于本文所述的方法和操作的指令。在至少一个实施例中,一种方法可以包括从客户端设备接收数据丰富化请求。该方法可以包括由计算机系统识别来自一个或多个数据源的数据中的模式。该方法可以包括将模式与来自知识服务的实体信息进行匹配。该方法可以包括基于实体信息为数据生成一个或多个变换脚本。该方法可以包括生成与一个或多个变换脚本对应的一个或多个推荐。该方法可以包括使得这一个或多个推荐在客户端设备处的用户界面中显示。该方法可以包括接收基于一个或多个推荐的变换指令。该方法可以包括基于变换指令变换数据。该方法可以包括基于变换指令将经变换的数据发布到一个或多个数据目标。在一些实施例中,该方法可以包括从一个或多个数据源中的至少一个接收对至少一列数据的选择,并且使得这至少一列数据的数据简档被显示。数据简档可以指示在这至少一列数据中识别出的多个模式和与这至少一列数据相关联的至少一个数据可视化。在至少一个实施例中,变换指令包括基于实体信息重命名至少一列数据的变换指令。该方法可以包括接收将这至少一列数据重命名为默认名称的另一变换指令。在一些实施例中,变换指令包括基于实体信息重新格式化这至少一列数据的变换指令。在一些实施例中,变换指令包括用于基于实体信息模糊化这至少一列数据的另一变换指令。在一些实施例中,变换指令包括基于实体信息添加从知识服务获得的一列或多列数据的丰富化指令。在本专利技术的一个实施例中,当接收到对数据源中的至少一个数据源的至少一列数据的选择时,使得这至少一列数据的数据简档显示在客户端设备上的用户界面中,其中数据简档指示在这至少一列数据中识别出的多个模式和与这至少一列数据相关联的至少一个数据可视化。在本专利技术的一个实施例中,变换指令包括基于实体信息重命名至少一列数据的变换指令。在本专利技术的一个实施例中,接收另一转换指令,以将至少一列数据重命名为默认名称。在本专利技术的一个实施例中,变换指令包括基于实体信息重新格式化至少一列数据的变换指令。在本专利技术的一个实施例中,变换指令包括基于实体信息模糊化至少一列数据的另一变换指令。在本专利技术的一个实施例中,变换指令包括基于实体信息添加从知识服务获得的一列或多列数据的丰富化指令。通过参考以下说明书、权利要求和附图,前述内容以及其它特征和实施例将变得更加明显。附图说明图1绘出了根据本专利技术实施例的数据丰富化服务的简化高层级图。图2绘出了根据本专利技术实施例的技术栈的简化框图。图3绘出了根据本专利技术实施例的交互式可视化系统的简化框图。图4A-4D绘出了根据本专利技术实施例的提供交互式数据丰富化的用户界面的例子。图5A-5D绘出了根据本专利技术实施例的交互式数据丰富化的结果的例子。图6绘出了根据本专利技术实施例的数据丰富化的方法的流程图。图7绘出了用于实现实施例的分布式系统的简化图。图8是根据本公开内容实施例的、其中服务可以作为云服务提供的系统环境的一个或多个部件的简化框图。图9示出了可以被用来实现本专利技术实施例的示例性计算机系统。具体实施方式在以下描述中,为了说明的目的,阐述了具体的细节,以便提供对本专利技术的实施例的透彻理解。但是,明显的是,各种实施例可以在没有这些具体细节的情况下实本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/201580046371.html" title="用于推荐的数据变换和修复的声明性语言和可视化系统原文来自X技术">用于推荐的数据变换和修复的声明性语言和可视化系统</a>

【技术保护点】
一种方法,包括:由计算机系统识别来自一个或多个数据源的数据中的模式;将模式与来自知识服务的实体信息进行匹配;基于实体信息为数据生成一个或多个变换脚本;生成与所述一个或多个变换脚本对应的一个或多个推荐;使得所述一个或多个推荐在用户界面中显示;接收基于所述一个或多个推荐的变换指令;基于变换指令变换数据;及基于变换指令将经变换的数据发布到一个或多个数据目标。

【技术特征摘要】
【国外来华专利技术】2014.09.26 US 62/056,471;2015.09.24 US 14/864,4961.一种方法,包括:由计算机系统识别来自一个或多个数据源的数据中的模式;将模式与来自知识服务的实体信息进行匹配;基于实体信息为数据生成一个或多个变换脚本;生成与所述一个或多个变换脚本对应的一个或多个推荐;使得所述一个或多个推荐在用户界面中显示;接收基于所述一个或多个推荐的变换指令;基于变换指令变换数据;及基于变换指令将经变换的数据发布到一个或多个数据目标。2.如权利要求1或权利要求2所述的方法,还包括:接收对所述一个或多个数据源中的至少一个数据源的至少一列数据的选择;及使得所述至少一列数据的数据简档被显示,其中数据简档指示在所述至少一列数据中识别出的多个模式、和与所述至少一列数据相关联的至少一个数据可视化。3.如权利要求1所述的方法,其中变换指令包括基于实体信息重命名至少一列数据的变换指令。4.如权利要求3所述的方法,还包括:接收将所述至少一列数据重命名为默认名称的另一变换指令。5.如前述权利要求中任一项所述的方法,其中变换指令包括基于实体信息重新格式化至少一列数据的变换指令。6.如权利要求5所述的方法,其中变换指令包括基于实体信息模糊化至少一列数据的另一变换指令。7.如前述权利要求中任一项所述的方法,其中变换指令包括基于实体信息添加从知识服务获得的一列或多列数据的丰富化指令。8.一种系统,包括:多个数据源;多个数据目标;及云计算基础设施系统,包括:一个或多个处理器,经至少一个通信网络通信耦合到所述多个数据源并通信耦合到所述多个数据目标;及存储器,耦合到所述一个或多个处理器,存储器存储指令以提供数据丰富化服务,其中所述指令在被所述一个或多个处理器执行时使得所述一个或多个处理器:从客户端设备接收数据丰富化请求;识别来自在数据丰富化请求中指定的至少一个数据源的数据中的模式;将模式与来自知识服务的实体信息匹配;基于实体信息为数据生成一个或多个变换脚本;生成与所述一个或多个变换脚本对应的一个或多个推荐;使得所述一个或多个推荐在客户端设备上的用户界面中显示;接收基于所述一个或多个推荐的变换指令;基于变换指令变换数据;及基于变换指令将经变换的数据发布到一个或多个数据目标。9.如权利要求8所述的系统,其中所述指令在由所述一个或多个处理器执行...

【专利技术属性】
技术研发人员:A·S·斯托贾诺维克L·E·李瓦斯P·戈伦G·A·莫里
申请(专利权)人:甲骨文国际公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1