由知识数据库大规模地驱动的基于元数据的科学数据表征制造技术

技术编号:27231947 阅读:51 留言:0更新日期:2021-02-04 11:58
一种基于元数据的科学数据表征方法、系统和计算机程序产品包括:请求任务的用户输入以指定用于基于与数据文件数据库中的数据文件相关联的元数据来确定数据文件的质量和关系的任务的规则,使用在数据文件数据库上运行的规则来处理结果的用户反馈,并且跟踪结果的用户反馈以便从用户反馈中学习,以及基于该学习来创建用于确定第二数据文件的质量和关系的已修改规则。已修改规则。已修改规则。

【技术实现步骤摘要】
由知识数据库大规模地驱动的基于元数据的科学数据表征

技术介绍

[0001]本专利技术总体上涉及基于元数据的科学数据表征方法,并且更具体地但非限制性地涉及一种用于交互地和迭代地系统化用户使用相关联的元数据来表征一些文件的方式并且大规模地应用它的系统、方法和计算机程序产品。
[0002]大型的领域特定的科学数据文件具有相关联的元数据,这些元数据对于科学实验过程至关重要。但是,这些文件通常是异构的。一些文件具有比其他文件更多或更好的相关联的元数据,并且一些文件与其他文件相关。
[0003]传统上,当用户(例如,科学家,诸如地质领域的地球物理学家、农业领域的农艺师等)获取大量数据文件时,他们首先需要通过以下方式来表征文件:确定文件的质量等级并且找出它们之间的关系(例如,文件是从另一文件中得到的,或者等于另一文件,或者与另一文件中的区域在地理上相交),使得他们可以开始其实验过程。当从公共数据提供者获取数据文件时,这一点显得尤为重要。尽管单个文件中的数据内容通常很大(数百GB),但是这些文件中的相关联的元数据通常很小(例如,几兆字节)。如果基于数据而不是基于元数据来进行,则这样的数据表征非常昂贵。因此,它们通常是通过基于元数据的手动检查来完成的。而且,手动检查无法针对跨若干数据文件分布的大量数据进行扩展。
[0004]但是,即使传统技术可以利用从原始数据文件中提取的元数据来在数据管理生命周期中表示它们,传统技术也没有考虑到让用户基于元数据来迭代地和交互地改变规则以应用于多个数据文件的技术、以及收集用户交互以改进规则定义的学习系统。

技术实现思路

[0005]在示例性实施例中,本专利技术提供了一种计算机实现的基于元数据的科学数据表征方法,该方法包括:请求用户输入以指定用于基于与科学数据文件相关联的元数据来确定科学数据文件的质量和关系的规则,处理用户反馈以分析结果并且跟踪结果的用户反馈以便从用户反馈中学习,以及基于该学习来创建用于确定科学数据文件的质量和关系的规则。
[0006]基于上述方法,一个或多个其他示例性实施例包括一种计算机程序产品和一种系统。
[0007]下面描述本专利技术的其他细节和实施例,以便可以更好地理解对本领域的当前贡献。然而,本专利技术在其应用方面不限于说明书中阐述或在附图中示出的这些细节、措辞、术语、图示和/或布置。而是,本专利技术能够具有除了所描述的实施例之外的其他实施例,并且能够以各种方式来实践和执行,并且不应当被认为是限制性的。
[0008]这样,本领域技术人员将认识到,本公开所基于的概念可以容易地用作设计用于实现本专利技术的若干目的的其他结构、方法和系统的基础。因此,重要的是,在不背离本专利技术的精神和范围的前提下,权利要求被认为包括这样的等同构造。
附图说明
[0009]通过以下参考附图对本专利技术的示例性实施例的详细描述,将会更好地理解本专利技术的各方面,在附图中:
[0010]图1示例性地示出了根据本专利技术的实施例的基于元数据的科学数据表征方法100的高级流程图;
[0011]图2示例性地描绘了根据本专利技术的实施例的基于元数据的科学数据表征的示例流程;
[0012]图3示例性地描绘了根据本专利技术的实施例的基于元数据的科学数据表征的示例系统300;
[0013]图4描绘了根据本专利技术的实施例的云计算节点10;
[0014]图5描绘了根据本专利技术的实施例的云计算环境50;
[0015]图6描绘了根据本专利技术的实施例的抽象模型层;以及
[0016]图7-9示例性地描绘了本专利技术的一般用例以及根据本专利技术的实施例而解决的问题。
具体实施方式
[0017]现在将参考图1-9描述本专利技术,相同的附图标记始终表示相同的部分。要强调的是,根据惯例,附图的各种特征不一定按比例绘制。相反,为了清楚起见,可以任意地扩大或缩小各种特征的尺寸。
[0018]通过介绍图1所描绘的示例,根据本专利技术的基于元数据的科学数据表征方法100的实施例可以包括用于混合的基于规则和学习的技术的各个步骤,该技术使得用户能够交互地和迭代地指导表征多个大型原始数据文件的基于规则的处理,以(i)确定文件的质量以及(ii)利用与大型文件相关联的小型元数据来找出数据关系。可以由基于机器学习的推荐器组件在过程的每个新迭代中推荐规则。用户可以接受推荐或调节所推荐的规则。因此,规则由用户的知识控制,由应用和域驱动。而且,用户的交互性和规则修改都记录在知识数据库中以改进推荐器组件。
[0019]因此,本专利技术的一个优点是它使用针对一些文件的人类知识,将其大规模地应用于大量文件,并且从用户的交互中学习。该优点是可能的,因为本专利技术利用与大型文件相关联的小元数据来减少用户与系统之间的处理响应时间,从而使系统更具交互性。然后,本专利技术(例如,使用基于机器学习的组件)和用户共同协作,直到实现最佳规则集和结果(例如,所表征的数据文件)。
[0020]通过介绍图4所描绘的示例,根据本专利技术的实施例的计算机系统12的一个或多个计算机可以包括存储器28,该存储器28具有存储在存储系统中的用于执行图1的步骤的指令。
[0021]尽管一个或多个实施例可以在云环境50(例如,图6)中实现,但是应当理解,本专利技术可以在云环境之外实现。
[0022]参考图7-9,示例性地解释了由本专利技术解决的问题的上下文。如图7所示,用户(例如,科学家,诸如地球物理学家、农艺师、健康科学家等)从存储设备接收多个数据文件以进行分析。典型的数据文件很大(即,高达数百GB),是特殊文件格式(例如,GeoTIFF,在农业应
用中很常见,或者由工业标准指定的格式,诸如用于地质应用的SEG-Y等),包含重要的相关联的元数据等。但是,文件是异构的。对于给定用途,一些文件具有高质量和相关的元数据,但是一些文件则没有。
[0023]参考图8,首先,用户需要确定数据文件的质量。作为示例,用户观察文件之一,将其打开,并且基于与文件相关联的元数据,用户标识出“文件A”具有相关联的地理坐标。
[0024]参考图9,第二,用户必须标识这些文件之间的关系。只有在确定质量并且标识文件关系之后,用户才能开始其实验过程。例如,用户验证出文件C包含与文件D中的数据在地理上相交的数据(例如,C和D是其多边形部分地覆盖相同地理区域的地震数据)。
[0025]但是,传统上,用户手动检查文件以确定文件的质量和关系。手动检查对于一个文件或可能一些文件而言效果很好。但是,它不能扩展到大量文件。因此,当用户对文件进行推理时,他们将失去从用户的交互中学习的机会。然而,利用方法100的专利技术,本专利技术可以交互地和迭代地系统化用户使用相关联的元数据来表征一些文件并且大规模地应用它的方式,并且随着用户使用本专利技术而改善结果。
[0026]总体上参考图1和图2,在步骤101中,请求用户输入以指定用于基于与科学数据文件相关联的元数据来确定科学数据文件的质量和关系的规则。
[0027]在步骤102中,处理用户反馈以分析结果并且跟踪结果的用户反馈以便从用户反馈本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种计算机实现的基于元数据的表征方法,所述方法包括:请求任务的用户输入以指定用于基于与数据文件数据库中的数据文件相关联的元数据来确定所述数据文件的质量和关系的所述任务的规则;使用在所述数据文件数据库上运行的所述规则来处理结果的用户反馈,并且跟踪对所述结果的所述用户反馈以便从所述用户反馈中学习;以及基于所述学习来创建用于确定第二数据文件的质量和关系的已修改规则。2.根据权利要求1所述的方法,其中所述数据文件包括科学数据文件,其中所述数据文件数据库包括科学数据文件数据库,以及其中所述第二数据文件包括第二科学数据文件。3.根据权利要求2所述的方法,其中所述请求交互地和迭代地系统化相关联的所述元数据的所述用户输入以表征少于所述科学数据文件数据库中的第二数目的科学数据文件的多个科学数据文件。4.根据权利要求2所述的方法,还包括在所述科学数据文件数据库上大规模地应用所述已修改规则以确定所述科学数据文件数据库中的科学数据文件的质量和关系。5.根据权利要求4所述的方法,其中所述处理还基于大规模地运行的所述已修改规则来处理第二用户反馈以迭代地创...

【专利技术属性】
技术研发人员:R
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1