当前位置: 首页 > 专利查询>河海大学专利>正文

基于数据质量的主题数据集多层分面过滤方法与系统技术方案

技术编号:14493126 阅读:156 留言:0更新日期:2017-01-29 15:44
本发明专利技术提供一种基于数据质量的主题数据集多层分面过滤方法与系统,该方法包括以下步骤:根据数据目录中数据集质量元数据构建并存储一个数据质量分面分类层次;根据数据质量分面分类层次和用户搜索数据目录所产生的主题数据集物化出一个特定主题的数据质量分面分类层次,并将其树形结构在人机交互界面中进行可视化;根据用户在上述树形结构中选择的数据质量分面对主题数据集进行基于数据质量的过滤,并按用户选定的方式对过滤结果进行排序;在人机交互界面中输出过滤并排序后的主题数据集信息。本发明专利技术克服了现有主题数据集过滤技术忽视数据质量的弊端,用多层分面过滤来方便用户筛选符合数据质量要求的主题数据集,代表数据目录门户技术发展趋势。

【技术实现步骤摘要】

本专利技术属于数据集搜索与分面过滤、Web数据目录与元数据、数据质量管理等领域的交叉
,涉及一种基于数据质量的数据集分面过滤技术,尤其是一种基于数据质量的主题数据集多层分面过滤方法与系统
技术介绍
数据是当今世界能创造巨大价值的重要资源,而万维网(WorldWideWeb,简称Web)已成为数据发布、使用、消费的主流平台。各种持有大量数据集(dataset)的数据目录(datacatalog/catalogue)在Web上集中发布,形成一个个所谓的数据目录门户(datacatalogportal)或简称为数据门户(dataportal)。有的开放数据(opendata)目录门户中的数据集是供数据消费者(通常称为“用户”)免费使用的,如:包括2009年5月始启用的美国政府开放数据门户DATA.GOV(https://www.data.gov)和2012年12月始启用的欧盟开放数据门户(http://data.europa.eu)在内的全球数十个国家或地区及其所辖省市的数百个开放政府(opengovernment)数据门户;有的数据目录门户已成为基于Web的在线数据交易集市,如:国外的DataShop.biz(http://www.datashop.biz/)和国内的数据堂(http://datatang.com/)。虽然数据目录门户为用户寻找数据资源提供了前所未有的新机会,但是数据目录往往持有大量数据集的事实使用户面临了一种新的信息/选择过载(information/choiceoverload)难题。例如,DATA.GOV数据门户截止2016年8月9日在其数据目录中发布了Agriculture(农业)、Business(商务)、Climate(气候)、Consumer(消费者)、Ecosystems(生态系统)、Education(教育)、Energy(能源)、Finance(金融)、Health(卫生保健)、LocalGovernment(地方政府)、Manufacturing(制造业)、Ocean(海洋)、PublicSafety(公共安全)、Science&Research(科学与研究)共14个主题领域的185,989个数据集,用户很难通过浏览某个主题领域寻找到合适的数据集。为解决此类难题,用户只能借助于数据目录门户提供的数据集主题搜索(topicalsearch)和分面过滤(facetedfiltering)技术。一般来说,用户在数据目录中搜寻满足其特定“数据需求”的数据集的过程通常从该用户的兴趣主题(topicofinterest)出发,首先使用检索关键词(keywords)通过数据目录门户提供的数据集搜索引擎对整个数据目录的或用户选定的某个主题领域的数据集的元数据(metadataaboutdatasets)进行主题搜索,然后在搜索结果数据集即所谓的主题数据集(topicaldatasets)清单中直接浏览选择数据集,或借助数据目录门户提供的对搜索结果数据集的分面过滤手段来进一步筛选“中意的”数据集。当前数据门户,即使是代表最高技术发展水平的数据门户(如:美国政府和欧盟的开放数据门户),仅提供了功能上有限的数据集主题搜索和分面过滤技术手段:无论数据目录门户是否采用最为先进的语义(semantic)元数据,数据集搜索引擎通过简单的关键词匹配或先进的语义匹配后返回的结果数据集(即主题数据集)通常只能按主题相关度(relevance)、数据集名称、数据集发布/更新日期、数据集的用户浏览次数即流行度(popularity)等进行排序;搜索结果数据集的再过滤技术手段也仅有按数据集的类型、数据格式、发布机构等的简单分面过滤。总之,现有的(主题)数据集分面过滤技术由于忽视了数据质量(dataquality)这个重要的数据特性,不能完整地体现用户的“数据需求”,从而未帮助用户很好解决上述信息/选择过载难题。用户的兴趣主题固然对用户搜寻数据资源很重要,但数据质量是用户选用数据资源时的一个关键考虑因素。正如《ISO/IEC25012数据质量模型》国际标准的技术文档中所言:“dataquality[referstothe]degreetowhichthecharacteristicsofdatasatisfystatedandimpliedneedswhenusedunderspecifiedconditions.(“数据质量是指数据在指定条件下使用时数据的特性对明确的和隐含的需求的一种满足程度”)...dataqualityisakeycomponentofthequalityandusefulnessofinformationderivedfromthatdata,andmostbusinessprocessesdependonthequalityofdata.Acommonprerequisitetoallinformationtechnologyprojectsisthequalityofthedatawhichareexchanged,processedandusedbetweenthecomputersystemsandusersandamongcomputersystemsthemselves.(数据质量是源于该数据的信息的质量和有用性的一个关键要素,大多数业务流程取决于数据的质量;所有信息技术项目的一个共同先决条件是在计算机系统和用户之间以及计算机系统本身之间交换、处理和使用的数据的质量)”(摘自:ISO/IEC25012:2008,Softwareengineering–SystemsproductQualityRequirementsandEvaluation(SQuaRE)–Dataqualitymodel.InternationalStandardbytheJointTechnicalCommitteeISO/IECJTC1oftheInternationalOrganizationforStandardization(ISO)andtheInternationalElectrotechnicalCommission(IEC),12/01/2008.http://www.iso.org/iso/catalogue_detail.htm?csnumber=35736或http://iso25000.com/index.php/en/iso-25000-standards/iso-25012);专门制定万维网技术标准与规范的万维网联盟(WorldWideWebConsortium,简称W3C)近期颁布的《Web数据最佳实践》规范中也强调:“Thequalityofadatasetcanhaveabigimpactonthequalityofapplicationsthatuseit.Asaconsequence,theinclusionofdataqualityinformationindatapublishingandconsumptionpipelinesisofprimaryimportance本文档来自技高网...
基于数据质量的主题数据集多层分面过滤方法与系统

【技术保护点】
一种基于数据质量的主题数据集多层分面过滤方法,包括下列步骤:S1:根据数据目录中数据集质量元数据构建并存储一个数据质量分面分类层次;S2:根据数据质量分面分类层次和用户搜索数据目录所产生的主题数据集物化出一个特定主题的数据质量分面分类层次,并将其树形结构在人机交互界面中进行可视化;S3:根据用户在上述树形结构中选择的数据质量分面对主题数据集进行基于数据质量的过滤,并按用户选定的方式对过滤结果进行排序;S4:在人机交互界面中输出过滤并排序后的主题数据集信息。

【技术特征摘要】
1.一种基于数据质量的主题数据集多层分面过滤方法,包括下列步骤:S1:根据数据目录中数据集质量元数据构建并存储一个数据质量分面分类层次;S2:根据数据质量分面分类层次和用户搜索数据目录所产生的主题数据集物化出一个特定主题的数据质量分面分类层次,并将其树形结构在人机交互界面中进行可视化;S3:根据用户在上述树形结构中选择的数据质量分面对主题数据集进行基于数据质量的过滤,并按用户选定的方式对过滤结果进行排序;S4:在人机交互界面中输出过滤并排序后的主题数据集信息。2.根据权利要求1所述的方法,其特征在于,所述步骤S1进一步包括下列步骤:S11:根据数据目录中数据集质量元数据构建一个数据质量分面分类层次H;S12:持久存储已构建的数据质量分面分类层次H。3.根据权利要求2所述的方法,其特征在于,所述步骤S11进一步包括下列步骤:S111:定义一个与三层数据质量层次模型相对应的数据质量分面分类层次H,包括:该数据质量分面分类层次是一种具有依次包含关系的三层结构:第一层是质量类别层,其中的每个质量类别有一个名称,并通过指针来指向质量维层中若干个质量维以表明该质量类别包含这些质量维的关系,第二层是质量维层,其中的每个质量维有一个名称,并通过指针来指向质量度量指标层中若干个质量度量指标以表明该质量维包含这些质量度量指标的关系,第三层是质量度量指标层,其中的每个质量度量指标有一个名称,在数据目录门户的实际应用中,一个质量度量指标可用于对若干个数据集进行质量度量,一个数据集可在若干个质量度量指标上有质量度量,并且,一个数据集在某个质量度量指标上可有若干个质量度量,每个质量度量以质量度量名-值对的形式存在;在上述数据质量分面分类层次中,每个数据质量分面,即:每个具体的质量类别、质量维或质量度量指标,都将按以下方式来记录拥有与其相关的质量度量的所有数据集的标识信息:每个具体的质量度量指标都将记录在该质量度量指标上有质量度量的所有数据集的标识符,每个具体的质量维都将记录在它包含的全部质量度量指标上有质量度量的所有数据集的标识符,并将这样的数据集简称为“在该质量维下有质量度量的数据集”,类似地,每个具体的质量类别都将记录在它包含的全部质量维所包含的全部质量度量指标上有质量度量的所有数据集的标识符,并将这样的数据集简称为“在该质量类别下有质量度量的数据集”;进一步地,上述数据质量分面分类层次H的数据结构用数学符号描述如下:一个数据质量分面分类层次是一个三元组H=(C,D,M),其中,C是质量类别的线性表,D是质量维的线性表的集合,M是质量度量指标的线性表的集合;质量类别的线性表C=(C1,C2,…,Cl),其中,l为该线性表的长度,每个元素Ci,i=1,2,…,l是一个质量类别,包含三个数据项:质量类别的名称Ci.Name,在该质量类别下有质量度量的数据集标识符的线性表Ci.ListOfDatasetIDs,指向该质量类别所包含的质量维的线性表Di的指针Ci.Pointer;Ci所指向的质量维的线性表Di=(Di1,Di2,…,Dim),其中,m为该线性表的长度,每个元素Dij,j=1,2,…,m是一个质量维,包含三个数据项:质量维的名称Dij.Name,在该质量维下有质量度量的数据集标识符的线性表Dij.ListOfDatasetIDs,指向该质量维所包含的质量度量指标的线性表Mij的指针Dij.Pointer;Dij所指向的质量度量指标的线性表Mij=(Mij1,Mij2,…,Mijn),其中,n为该线性表的长度,每个元素Mijk,k=1,2,…,n是一个质量度量指标,包含两个数据项:质量度量指标的名称Mijk.Name,在该质量度量指标上有质量度量的数据集标识符的线性表Mijk.ListOfDatasetIDs,这些数据集在该质量度量指标上可有若干个质量度量,每个质量度量以质量度量名-值对的形式存在;S112:从数据目录中获取所有数据集的质量元数据,将其中的质量类别、质量维、质量度量指标的名称及相互包含关系相应地赋值至上述数据质量分面分类层次H,各层中全部的数据集标识符的线性表均暂置为空。4.根据权利要求1至3任一项所述的方法,其特征在于,所述步骤S2进一步包括下列步骤:S21:从数据目录门户的数据集搜索引擎获取用户搜索数据目录所搜索到的主题数据集,若搜索结果为空则终止处理,否则据此形成一个主题数据集标识符的线性表TopicalDatasetIDs;S22:读取已构建并存储的数据质量分面分类层次H;S23:根据主题数据集标识符的线性表TopicalDatasetIDs来物化已读取的数据质量分面分类层次H,以产生一个特定主题的数据质量分面分类层次S24:将特定主题的数据质量分面分类层次的树形结构在人机交互界面中进行可视化。5.根据权利要求4所述的方法,其特征在于,所述步骤S23进一步包括下列步骤:S231:从数据目录中获取主题数据集标识符的线性表TopicalDatasetIDs中所有数据集的质量元数据;S232:根据所获取的质量元数据来物化数据质量分面分类层次H的质量度量指标层,以产生特定主题的数据质量分面分类层次的质量度量指标层,包括:首先,对数据质量分面分类层次H中的每个质量度量指标Mijk,若质量元数据中使用了该质量度量指标进行质量度量,则将其作为特定主题的数据质量分面分类层次中的一个质量度量指标然后,对中每一个这样的质量度量指标从主题数据集标识符的线性表TopicalDatasetIDs中找出在该质量度量指标上有质量度量的所有主题数据集,将这些主题数据集的标识符赋值给在该质量度量指标上有质量度量的主题数据集标识符的线性表并将该线性表中的每个主题数据集在该质量度量指标上的所有质量度量的名-值对存储于相应的集合其中1≤t≤线性表的长度;S233:根据特定主题的数据质量分面分类层次的质量度量指标层来进一步物化数据质量分面分类层次H的质量维层,以产生特定主题...

【专利技术属性】
技术研发人员:许卓明夏文泽
申请(专利权)人:河海大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1