由知识数据库大规模地驱动的基于元数据的科学数据表征制造技术

技术编号：27231947 阅读：51 留言：0更新日期：2021-02-04 11:58

一种基于元数据的科学数据表征方法、系统和计算机程序产品包括：请求任务的用户输入以指定用于基于与数据文件数据库中的数据文件相关联的元数据来确定数据文件的质量和关系的任务的规则，使用在数据文件数据库上运行的规则来处理结果的用户反馈，并且跟踪结果的用户反馈以便从用户反馈中学习，以及基于该学习来创建用于确定第二数据文件的质量和关系的已修改规则。已修改规则。已修改规则。

全部详细技术资料下载

【技术实现步骤摘要】
由知识数据库大规模地驱动的基于元数据的科学数据表征

技术介绍

[0001]本专利技术总体上涉及基于元数据的科学数据表征方法，并且更具体地但非限制性地涉及一种用于交互地和迭代地系统化用户使用相关联的元数据来表征一些文件的方式并且大规模地应用它的系统、方法和计算机程序产品。
[0002]大型的领域特定的科学数据文件具有相关联的元数据，这些元数据对于科学实验过程至关重要。但是，这些文件通常是异构的。一些文件具有比其他文件更多或更好的相关联的元数据，并且一些文件与其他文件相关。
[0003]传统上，当用户(例如，科学家，诸如地质领域的地球物理学家、农业领域的农艺师等)获取大量数据文件时，他们首先需要通过以下方式来表征文件：确定文件的质量等级并且找出它们之间的关系(例如，文件是从另一文件中得到的，或者等于另一文件，或者与另一文件中的区域在地理上相交)，使得他们可以开始其实验过程。当从公共数据提供者获取数据文件时，这一点显得尤为重要。尽管单个文件中的数据内容通常很大(数百GB)，但是这些文件中的相关联的元数据通常很小(例如，几兆字节)。如果基于数据而不是基于元数据来进行，则这样的数据表征非常昂贵。因此，它们通常是通过基于元数据的手动检查来完成的。而且，手动检查无法针对跨若干数据文件分布的大量数据进行扩展。
[0004]但是，即使传统技术可以利用从原始数据文件中提取的元数据来在数据管理生命周期中表示它们，传统技术也没有考虑到让用户基于元数据来迭代地和交互地改变规则以应用于多个数据文件的技术、以及收集用户交互以改进规则定义的学习系统。...

【技术保护点】

【技术特征摘要】
1.一种计算机实现的基于元数据的表征方法，所述方法包括：请求任务的用户输入以指定用于基于与数据文件数据库中的数据文件相关联的元数据来确定所述数据文件的质量和关系的所述任务的规则；使用在所述数据文件数据库上运行的所述规则来处理结果的用户反馈，并且跟踪对所述结果的所述用户反馈以便从所述用户反馈中学习；以及基于所述学习来创建用于确定第二数据文件的质量和关系的已修改规则。2.根据权利要求1所述的方法，其中所述数据文件包括科学数据文件，其中所述数据文件数据库包括科学数据文件数据库，以及其中所述第二数据文件包括第二科学数据文件。3.根据权利要求2所述的方法，其中所述请求交互地和迭代地系统化相关联的所述元数据的所述用户输入以表征少于所述科学数据文件数据库中的第二数目的科学数据文件的多个科学数据文件。4.根据权利要求2所述的方法，还包括在所述科学数据文件数据库上大规模地应用所述已修改规则以确定所述科学数据文件数据库中的科学数据文件的质量和关系。5.根据权利要求4所述的方法，其中所述处理还基于大规模地运行的所述已修改规则来处理第二用户反馈以迭代地创...

【专利技术属性】
技术研发人员：R，
申请(专利权)人：国际商业机器公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人