【技术实现步骤摘要】
本专利技术属于数据集搜索与分面过滤、Web数据目录与元数据、数据质量管理等领域的交叉
,涉及一种基于数据质量的数据集分面过滤技术,尤其是一种基于数据质量的主题数据集多层分面过滤方法与系统。
技术介绍
数据是当今世界能创造巨大价值的重要资源,而万维网(WorldWideWeb,简称Web)已成为数据发布、使用、消费的主流平台。各种持有大量数据集(dataset)的数据目录(datacatalog/catalogue)在Web上集中发布,形成一个个所谓的数据目录门户(datacatalogportal)或简称为数据门户(dataportal)。有的开放数据(opendata)目录门户中的数据集是供数据消费者(通常称为“用户”)免费使用的,如:包括2009年5月始启用的美国政府开放数据门户DATA.GOV(https://www.data.gov)和2012年12月始启用的欧盟开放数据门户(http://data.europa.eu)在内的全球数十个国家或地区及其所辖省市的数百个开放政府(opengovernment)数据门户;有的数据目录门户已成为基于Web的在线数据交易集市,如:国外的DataShop.biz(http://www.datashop.biz/)和国内的数据堂(http://datatang.com/)。虽然数据目录门户为用户寻找数据资源提供了前所未有的新机会,但是数据目录往往持有大量数据集的事实使用户面临了一种新的信息/选择过载(information/choiceoverload)难题。例如,DATA.GOV数据门户截止2016年8 ...
【技术保护点】
一种基于数据质量的主题数据集多层分面过滤方法,包括下列步骤:S1:根据数据目录中数据集质量元数据构建并存储一个数据质量分面分类层次;S2:根据数据质量分面分类层次和用户搜索数据目录所产生的主题数据集物化出一个特定主题的数据质量分面分类层次,并将其树形结构在人机交互界面中进行可视化;S3:根据用户在上述树形结构中选择的数据质量分面对主题数据集进行基于数据质量的过滤,并按用户选定的方式对过滤结果进行排序;S4:在人机交互界面中输出过滤并排序后的主题数据集信息。
【技术特征摘要】
1.一种基于数据质量的主题数据集多层分面过滤方法,包括下列步骤:S1:根据数据目录中数据集质量元数据构建并存储一个数据质量分面分类层次;S2:根据数据质量分面分类层次和用户搜索数据目录所产生的主题数据集物化出一个特定主题的数据质量分面分类层次,并将其树形结构在人机交互界面中进行可视化;S3:根据用户在上述树形结构中选择的数据质量分面对主题数据集进行基于数据质量的过滤,并按用户选定的方式对过滤结果进行排序;S4:在人机交互界面中输出过滤并排序后的主题数据集信息。2.根据权利要求1所述的方法,其特征在于,所述步骤S1进一步包括下列步骤:S11:根据数据目录中数据集质量元数据构建一个数据质量分面分类层次H;S12:持久存储已构建的数据质量分面分类层次H。3.根据权利要求2所述的方法,其特征在于,所述步骤S11进一步包括下列步骤:S111:定义一个与三层数据质量层次模型相对应的数据质量分面分类层次H,包括:该数据质量分面分类层次是一种具有依次包含关系的三层结构:第一层是质量类别层,其中的每个质量类别有一个名称,并通过指针来指向质量维层中若干个质量维以表明该质量类别包含这些质量维的关系,第二层是质量维层,其中的每个质量维有一个名称,并通过指针来指向质量度量指标层中若干个质量度量指标以表明该质量维包含这些质量度量指标的关系,第三层是质量度量指标层,其中的每个质量度量指标有一个名称,在数据目录门户的实际应用中,一个质量度量指标可用于对若干个数据集进行质量度量,一个数据集可在若干个质量度量指标上有质量度量,并且,一个数据集在某个质量度量指标上可有若干个质量度量,每个质量度量以质量度量名-值对的形式存在;在上述数据质量分面分类层次中,每个数据质量分面,即:每个具体的质量类别、质量维或质量度量指标,都将按以下方式来记录拥有与其相关的质量度量的所有数据集的标识信息:每个具体的质量度量指标都将记录在该质量度量指标上有质量度量的所有数据集的标识符,每个具体的质量维都将记录在它包含的全部质量度量指标上有质量度量的所有数据集的标识符,并将这样的数据集简称为“在该质量维下有质量度量的数据集”,类似地,每个具体的质量类别都将记录在它包含的全部质量维所包含的全部质量度量指标上有质量度量的所有数据集的标识符,并将这样的数据集简称为“在该质量类别下有质量度量的数据集”;进一步地,上述数据质量分面分类层次H的数据结构用数学符号描述如下:一个数据质量分面分类层次是一个三元组H=(C,D,M),其中,C是质量类别的线性表,D是质量维的线性表的集合,M是质量度量指标的线性表的集合;质量类别的线性表C=(C1,C2,…,Cl),其中,l为该线性表的长度,每个元素Ci,i=1,2,…,l是一个质量类别,包含三个数据项:质量类别的名称Ci.Name,在该质量类别下有质量度量的数据集标识符的线性表Ci.ListOfDatasetIDs,指向该质量类别所包含的质量维的线性表Di的指针Ci.Pointer;Ci所指向的质量维的线性表Di=(Di1,Di2,…,Dim),其中,m为该线性表的长度,每个元素Dij,j=1,2,…,m是一个质量维,包含三个数据项:质量维的名称Dij.Name,在该质量维下有质量度量的数据集标识符的线性表Dij.ListOfDatasetIDs,指向该质量维所包含的质量度量指标的线性表Mij的指针Dij.Pointer;Dij所指向的质量度量指标的线性表Mij=(Mij1,Mij2,…,Mijn),其中,n为该线性表的长度,每个元素Mijk,k=1,2,…,n是一个质量度量指标,包含两个数据项:质量度量指标的名称Mijk.Name,在该质量度量指标上有质量度量的数据集标识符的线性表Mijk.ListOfDatasetIDs,这些数据集在该质量度量指标上可有若干个质量度量,每个质量度量以质量度量名-值对的形式存在;S112:从数据目录中获取所有数据集的质量元数据,将其中的质量类别、质量维、质量度量指标的名称及相互包含关系相应地赋值至上述数据质量分面分类层次H,各层中全部的数据集标识符的线性表均暂置为空。4.根据权利要求1至3任一项所述的方法,其特征在于,所述步骤S2进一步包括下列步骤:S21:从数据目录门户的数据集搜索引擎获取用户搜索数据目录所搜索到的主题数据集,若搜索结果为空则终止处理,否则据此形成一个主题数据集标识符的线性表TopicalDatasetIDs;S22:读取已构建并存储的数据质量分面分类层次H;S23:根据主题数据集标识符的线性表TopicalDatasetIDs来物化已读取的数据质量分面分类层次H,以产生一个特定主题的数据质量分面分类层次S24:将特定主题的数据质量分面分类层次的树形结构在人机交互界面中进行可视化。5.根据权利要求4所述的方法,其特征在于,所述步骤S23进一步包括下列步骤:S231:从数据目录中获取主题数据集标识符的线性表TopicalDatasetIDs中所有数据集的质量元数据;S232:根据所获取的质量元数据来物化数据质量分面分类层次H的质量度量指标层,以产生特定主题的数据质量分面分类层次的质量度量指标层,包括:首先,对数据质量分面分类层次H中的每个质量度量指标Mijk,若质量元数据中使用了该质量度量指标进行质量度量,则将其作为特定主题的数据质量分面分类层次中的一个质量度量指标然后,对中每一个这样的质量度量指标从主题数据集标识符的线性表TopicalDatasetIDs中找出在该质量度量指标上有质量度量的所有主题数据集,将这些主题数据集的标识符赋值给在该质量度量指标上有质量度量的主题数据集标识符的线性表并将该线性表中的每个主题数据集在该质量度量指标上的所有质量度量的名-值对存储于相应的集合其中1≤t≤线性表的长度;S233:根据特定主题的数据质量分面分类层次的质量度量指标层来进一步物化数据质量分面分类层次H的质量维层,以产生特定主题...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。