【技术实现步骤摘要】
数据融合方法及终端
本申请属于数据融合
,具体涉及数据融合方法及终端。
技术介绍
随着信息技术的迅速发展,数据规模逐渐扩大,与此同时,劣质数据也随之而来,极大地降低了数据质量,对信息社会造成了严重的困扰。大多数组织开始考虑数据质量对大数据平台建设、分析应用等方面的重要影响,并开始对大数据资源的整体规划和综合治理。由于不同数据库,对不同数据的表达不同,在面对数据来源多样、数据源结构和语义上的存在异构的海量数据时,通过人工处理进行数据融合显然是一个耗时又费力的方式。而且,在传统的数据融合方法中,存在元数据信息难定义、数据标准不规范难对照、数据处理格式不够全面、融合数据不便机器理解等问题。
技术实现思路
为至少在一定程度上克服相关技术中存在的问题,本申请提供数据融合方法及终端,有助于实现形成元数据规范,数据标准统一,数据格式整齐的数据融合。为实现以上目的,本申请采用如下技术方案:第一方面,本申请提供一种数据融合方法,所述方法包括:接收输入的数据,基于数据的元数据进行数据理解处理,包括:根据数据的数据值进行属性分类,以及为各属性建立对应的有效性判断和数据转换解析器;确定数据的数据值分布情况,并利用所述有效性判断和数据转换解析器进行有效性判断;对判断为有效的数据,利用对应的所述有效性判断和数据转换解析器,进行数据转换,输出融合数据进行存储。进一步地,所述根据数据的数据值进行属性分类,包括:在数据需要补全时,对数据进行元数据补全;< ...
【技术保护点】
1.一种数据融合方法,其特征在于,所述方法包括:/n接收输入的数据,基于数据的元数据进行数据理解处理,包括:根据数据的数据值进行属性分类,以及为各属性建立对应的有效性判断和数据转换解析器;/n确定数据的数据值分布情况,并利用所述有效性判断和数据转换解析器进行有效性判断;/n对判断为有效的数据,利用对应的所述有效性判断和数据转换解析器,进行数据转换,输出融合数据进行存储。/n
【技术特征摘要】
1.一种数据融合方法,其特征在于,所述方法包括:
接收输入的数据,基于数据的元数据进行数据理解处理,包括:根据数据的数据值进行属性分类,以及为各属性建立对应的有效性判断和数据转换解析器;
确定数据的数据值分布情况,并利用所述有效性判断和数据转换解析器进行有效性判断;
对判断为有效的数据,利用对应的所述有效性判断和数据转换解析器,进行数据转换,输出融合数据进行存储。
2.根据权利要求1所述的方法,其特征在于,所述根据数据的数据值进行属性分类,包括:
在数据需要补全时,对数据进行元数据补全;
对数据值满足预设完整条件的数据列进行分析识别,识别出相关的字段类型和字段长度信息,以此进行属性分类。
3.根据权利要求1或2所述的方法,其特征在于,所述属性分类包括:具有特定格式和规范的属性,具有数据字典作为码值转换参照的属性,以及实体类属性;
相应地,所述为各属性建立对应的有效性判断和数据转换解析器,包括:
对于所述具有特定格式和规范的属性,使用正则表达式或者预设处理程序建立对应的所述有效性判断和数据转换解析器;
对于所述具有数据字典作为码值转换参照的属性,使用数据字典建立对应的所述有效性判断和数据转换解析器;
对于所述实体类属性,基于现有的规则和数据作为语料,使用机器学习命名实体识别的方法训练得到所述有效性判断和数据转换解析器。
4.根据权利要求3所述的方法,其特征在于,所述确定数据的数据值分布情况,包括:
对数据列中的数据值进行数值范围情况、格式情况和数据长度情况识别,其中,所述数值范围情况展现属性值分布情况,所述格式情况展现属性值的格式分布情况,所述数据长度情况展示属性值按存储时数据长度的分布情况;
根据识别的内容,利用对应的所述有效性判断和数据转换解析器进行标记,并根据标记的情况进行统计计算,形成各个维度的分布情况图,用以支持数据有效性判断。
5.根据权利要求4所述的方法,其特征在于,所述确定数据的数据值分布情况,具体包括:
针对所述数值范围情况,对属性值的内容进行穷举分类,再根据值的情况对每个分类下的数据值进行加和,展现各个分类下的数据量情况,空值数据量情况和非法值的数据量情况,其中,如果数据值的内容难以穷举,则按空值情况、有效值和无效值三类进行数据值分布情况展现;
针对所述格式情况,对属性值的格式情况进行分类计算,再根据各个格式分类的情况对属性值进行统计,形成相应的分布情况,展现各个格式下的数据量情况和不符合任何格式数据的数据量情况;
针对所述数据长度情况,根据属性值的存储长度进行计算并分类,再根据长度分类对所有属性值进行...
【专利技术属性】
技术研发人员:高留杰,赵文,张世琨,李辉,
申请(专利权)人:北京北大软件工程股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。