一种开放数据的质量评估方法及系统技术方案

技术编号:23191645 阅读:29 留言:0更新日期:2020-01-24 16:31
本发明专利技术公开了一种开放数据的质量评估方法及系统,该方法的步骤包括:采用由元数据、数据资源、数据模式构成的三元组形式构建开放教育数据集结构;根据三元组形式构建开放教育数据集质量评估体系,预设质量评估各维度度量方法;选取开放教育数据集作为质量评估对象;根据质量评估各维度度量方法,计算质量评估对象各维度得分;计算质量评估各维度综合权重;根据质量评估对象各维度得分和质量评估各维度综合权重计算评估对象质量整体得分。本发明专利技术以单个教育数据集为评估对象进行整体质量评估,给教育研究者在挖掘和分析教育数据集时提供质量参考,并进一步提升了开放教育数据的使用率和可用性。

An open data quality evaluation method and system

【技术实现步骤摘要】
一种开放数据的质量评估方法及系统
本申请涉及数据质量评估
,具体涉及一种开放数据的质量评估方法及系统。
技术介绍
就教育领域而言,教育数据的开放可以为促进教育学科发展开辟新的途径和研究范式,探索教育规律、掌握教育舆情、诊断教育问题和预测教育的未来发展。在大数据时代,教育行业已经积累了大量且丰富的数据,教育数据为教育的广泛发展和深层次研究提供坚实的多维度的数据基础,“数据”俨然己成为教育教学研究的量化工具。但是由于国内教育行业在信息化建设初期,存在业务系统割裂、缺乏顶层规划、未形成统一标准等现象,导致海量的教育数据在收集、存储、使用时由于不规范、不一致等问题无法整合共享,阻碍教育数据开放共享,数据质量问题亟待解决,提升数据质量是促进当前教育数据发挥其价值的重要举措。
技术实现思路
为了克服现有技术存在的缺陷与不足,本专利技术提供一种开放数据的质量评估方法及系统,建立了一套细粒度的数据集质量评估体系,并以单个教育数据集为评估对象进行整体质量评估,有助于教育研究者了解并掌握教育数据集在质量方面的能力与不足,明确数据的使用价值和质量水平,给教育研究者在挖掘和分析教育数据集时提供质量参考,并进一步提升了开放教育数据的使用率和可用性。为了达到上述目的,本专利技术采用以下技术方案:本专利技术提供一种开放数据的质量评估方法,包括下述步骤:S1:采用三元组形式构建开放教育数据集结构,所述三元组由元数据、数据资源、数据模式构成;S2、根据所述三元组形式构建开放教育数据集质量评估体系,预设质量评估各维度度量方法;S3:选取开放教育数据集作为质量评估对象;S4:根据步骤S2中所述的质量评估各维度度量方法,计算质量评估对象各维度得分;S5:计算质量评估各维度综合权重:根据步骤S4中得出的质量评估对象各维度得分,以及质量评估各维度的实测得分,采用二次变权调整层次分析法和熵权法的权重;S6、根据步骤S4的质量评估对象各维度得分和步骤S5的质量评估各维度综合权重计算评估对象质量整体得分。作为优选的技术方案,步骤S2中所述元数据的质量评估维度包括元数据的存在性、准确性、规范性、有效性、开放性、及时性、可持续性和关联性维度;所述元数据存在性质量评估维度的度量方法具体为:获取教育数据集的元数据,所述获取的元数据与元数据标准进行映射,统一元数据项,采用加权完整性计算存在的元数据占比;所述元数据准确性质量评估维度的度量方法具体为:计算从元数据记录中获取到的信息与从数据资源自身获取到的信息之间的语义距离,根据所述语义距离评估元数据准确性;所述元数据规范性质量评估维度的度量方法具体为:根据基础教育教学资源元数据信息模型,统计元数据违背规范的频率;所述元数据有效性质量评估维度的度量方法具体为:采用GET请求返回的HTTP状态码检测URL的有效性,采用邮件传输协议检测邮件地址是否有效;所述元数据开放性质量评估维度的度量方法具体为:调用开放许可服务判断元数据的许可协议是否符合开放定义;所述元数据及时性质量评估维度的度量方法具体为:计算开放教育数据集获取时间与最后更新时间的时间差,判断开放教育数据集是否及时有效;所述元数据可持续性质量评估维度的度量方法具体为:计算开放教育数据集最后更新时间与发布时间的时间差,判断开放教育数据集是否持续更新;所述元数据关联性质量评估维度的度量方法具体为:采用外部关联结合内部关联方法判定开放教育数据集是否存在关联,所述外部关联基于开放教育数据集外部描述信息的语义相似度计算关联度,所述内部关联采用唯一标识属性判断是否为同一实体。作为优选的技术方案,步骤S2中所述数据资源的质量评估维度包括数据资源的一致性、完整性、唯一性、正确性和隐私性维度;所述数据资源一致性质量评估维度的度量方法具体为:采用预设的数据依赖规则集对开放教育数据集进行检测判断,判断同一开放教育数据集内不同数据资源间的数据及逻辑关系是否一致;所述数据资源完整性质量评估维度的度量方法具体为:获取数据模式定义的数据项,计算非空字段数量在总字段数量中的占比;所述数据资源唯一性质量评估维度的度量方法具体为:判断每条数据指向的数据对象是否唯一,采用编辑距离算法检测字段或记录的相似度,相似度大于设定阈值时判定为字段或记录重复,再计算数据资源唯一性比值W1,W1=1-T1,其中T1表示重复值的数量在所有数据值数量中的占比;所述数据资源正确性质量评估维度的度量方法具体为:根据数据规范进行正确性评估,计算数据准确值的数量在所有数据值数量中的占比;所述数据资源隐私性质量评估维度的度量方法具体为:预设敏感词词库,采用信息熵对数据进行隐私度量。作为优选的技术方案,步骤S2中所述数据模式的质量评估维度包括数据模式的权威性、规范性、唯一性、可理解性和相关性维度;所述数据模式权威性质量评估维度的度量方法具体为:判断预设的数据模式是否有可考察的学术背景和学术支持;所述数据模式规范性质量评估维度的度量方法具体为:统计数据模式的数据格式不符合规范的频率;所述数据模式唯一性质量评估维度的度量方法具体为:编辑距离算法检测数据模式字段相似度,相似度大于设定阈值时判定两字段重复,再计算数据模式唯一性比值W2,W2=1-T2,其中T2表示重复值的数量在所有值数量中的占比;所述数据模式可理解性质量评估维度的度量方法具体为:采用Flesch-Kincaid测量阅读文章的理解难度;所述数据模式相关性质量评估维度的度量方法具体为:采用余弦距离公式计算语义相似度,计算得到的距离值大于设定阈值则判定据模式字段语义相关。作为优选的技术方案,步骤S5中所述采用二次变权调整层次分析法和熵权法的权重,具体步骤为:S51:采用层次分析法计算质量评估各维度的主观权重;S52:采用熵权法计算质量评估各维度的客观权重;S53:通过变权函数进行局部变权,得到变权权重;S54:将主观权重和客观权重通过最小二乘法合成得到主客观权重;S55:将主客观权重和变权权重通过最小二乘法合成得到综合权重。作为优选的技术方案,步骤S51中所述采用层次分析法计算质量评估各维度的主观权重,具体步骤为:S511:构建层次结构模型:根据步骤S2中构建的开放教育数据集质量评估体系,构建自上而下的评估层次结构,在同一层的各个因素从属于上一层的因素,或对上层因素有影响,同时又支配下一层的因素或受到下层因素的作用;S512:评定同一层的各个因素质检的相对重要性,形成成对比较矩阵;S513:计算权重并进行一致性检验:针对步骤S512中每个成对比较矩阵计算最大特征根及对应特征向量,通过一致性指标、随机一致性指标和一致性比率进行一致性检验,若检验通过,特征向量归一化后得到主观权重,若检验不通过,重新构造成对比较矩阵。作为优选的技术方案,步骤S52中所述采用熵权法计算质量评估各维度的客观权重,本文档来自技高网...

【技术保护点】
1.一种开放数据的质量评估方法,其特征在于,包括下述步骤:/nS1:采用三元组形式构建开放教育数据集结构,所述三元组由元数据、数据资源、数据模式构成;/nS2、根据所述三元组形式构建开放教育数据集质量评估体系,预设质量评估各维度度量方法;/nS3:选取开放教育数据集作为质量评估对象;/nS4:根据步骤S2中所述的质量评估各维度度量方法,计算质量评估对象各维度得分;/nS5:计算质量评估各维度综合权重:根据步骤S4中得出的质量评估对象各维度得分,以及质量评估各维度的实测得分,采用二次变权调整层次分析法和熵权法的权重;/nS6、根据步骤S4的质量评估对象各维度得分和步骤S5的质量评估各维度综合权重计算评估对象质量整体得分。/n

【技术特征摘要】
1.一种开放数据的质量评估方法,其特征在于,包括下述步骤:
S1:采用三元组形式构建开放教育数据集结构,所述三元组由元数据、数据资源、数据模式构成;
S2、根据所述三元组形式构建开放教育数据集质量评估体系,预设质量评估各维度度量方法;
S3:选取开放教育数据集作为质量评估对象;
S4:根据步骤S2中所述的质量评估各维度度量方法,计算质量评估对象各维度得分;
S5:计算质量评估各维度综合权重:根据步骤S4中得出的质量评估对象各维度得分,以及质量评估各维度的实测得分,采用二次变权调整层次分析法和熵权法的权重;
S6、根据步骤S4的质量评估对象各维度得分和步骤S5的质量评估各维度综合权重计算评估对象质量整体得分。


2.根据权利要求1所述的开放数据的质量评估方法,其特征在于,步骤S2中所述元数据的质量评估维度包括元数据的存在性、准确性、规范性、有效性、开放性、及时性、可持续性和关联性维度;
所述元数据存在性质量评估维度的度量方法具体为:获取教育数据集的元数据,所述获取的元数据与元数据标准进行映射,统一元数据项,采用加权完整性计算存在的元数据占比;
所述元数据准确性质量评估维度的度量方法具体为:计算从元数据记录中获取到的信息与从数据资源自身获取到的信息之间的语义距离,根据所述语义距离评估元数据准确性;
所述元数据规范性质量评估维度的度量方法具体为:根据基础教育教学资源元数据信息模型,统计元数据违背规范的频率;
所述元数据有效性质量评估维度的度量方法具体为:采用GET请求返回的HTTP状态码检测URL的有效性,采用邮件传输协议检测邮件地址是否有效;
所述元数据开放性质量评估维度的度量方法具体为:调用开放许可服务判断元数据的许可协议是否符合开放定义;
所述元数据及时性质量评估维度的度量方法具体为:计算开放教育数据集获取时间与最后更新时间的时间差,判断开放教育数据集是否及时有效;
所述元数据可持续性质量评估维度的度量方法具体为:计算开放教育数据集最后更新时间与发布时间的时间差,判断开放教育数据集是否持续更新;
所述元数据关联性质量评估维度的度量方法具体为:采用外部关联结合内部关联方法判定开放教育数据集是否存在关联,所述外部关联基于开放教育数据集外部描述信息的语义相似度计算关联度,所述内部关联采用唯一标识属性判断是否为同一实体。


3.根据权利要求1所述的开放数据的质量评估方法,其特征在于,步骤S2中所述数据资源的质量评估维度包括数据资源的一致性、完整性、唯一性、正确性和隐私性维度;
所述数据资源一致性质量评估维度的度量方法具体为:采用预设的数据依赖规则集对开放教育数据集进行检测判断,判断同一开放教育数据集内不同数据资源间的数据及逻辑关系是否一致;
所述数据资源完整性质量评估维度的度量方法具体为:获取数据模式定义的数据项,计算非空字段数量在总字段数量中的占比;
所述数据资源唯一性质量评估维度的度量方法具体为:判断每条数据指向的数据对象是否唯一,采用编辑距离算法检测字段或记录的相似度,相似度大于设定阈值时判定为字段或记录重复,再计算数据资源唯一性比值W1,W1=1-T1,其中T1表示重复值的数量在所有数据值数量中的占比;
所述数据资源正确性质量评估维度的度量方法具体为:根据数据规范进行正确性评估,计算数据准确值的数量在所有数据值数量中的占比;
所述数据资源隐私性质量评估维度的度量方法具体为:预设敏感词词库,采用信息熵对数据进行隐私度量。


4.根据权利要求1所述的开放数据的质量评估方法,其特征在于,步骤S2中所述数据模式的质量评估维度包括数据模式的权威性、规范性、唯一性、可理解性和相关性维度;
所述数据模式权威性质量评估维度的度量方法具体为:判断预设的数据模式是否有可考察的学术背景和学术支持;
所述数据模式规范性质量评估维度的度量方法具体为:统计数据模式的数据格式不符合规范的频率;
所述数据模式唯一性质量评估维度的度量方法具体为:编辑距离算法检测数据模式字段相似度,相似度大于设定...

【专利技术属性】
技术研发人员:范冰冰陈丽炜
申请(专利权)人:华南师范大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1