数据融合方法及终端技术

技术编号:26170983 阅读:64 留言:0更新日期:2020-10-31 13:41
本申请涉及数据融合方法及终端,属于数据融合技术领域。本申请包括:接收输入的数据,基于数据的元数据进行数据理解处理,包括:根据数据的数据值进行属性分类,以及为各属性建立对应的有效性判断和数据转换解析器;确定数据的数据值分布情况,并利用有效性判断和数据转换解析器进行有效性判断;对判断为有效的数据,利用对应的有效性判断和数据转换解析器,进行数据转换,输出融合数据进行存储。通过本申请,有助于实现形成元数据规范,数据标准统一,数据格式整齐的数据融合。

Data fusion method and terminal

【技术实现步骤摘要】
数据融合方法及终端
本申请属于数据融合
,具体涉及数据融合方法及终端。
技术介绍
随着信息技术的迅速发展,数据规模逐渐扩大,与此同时,劣质数据也随之而来,极大地降低了数据质量,对信息社会造成了严重的困扰。大多数组织开始考虑数据质量对大数据平台建设、分析应用等方面的重要影响,并开始对大数据资源的整体规划和综合治理。由于不同数据库,对不同数据的表达不同,在面对数据来源多样、数据源结构和语义上的存在异构的海量数据时,通过人工处理进行数据融合显然是一个耗时又费力的方式。而且,在传统的数据融合方法中,存在元数据信息难定义、数据标准不规范难对照、数据处理格式不够全面、融合数据不便机器理解等问题。
技术实现思路
为至少在一定程度上克服相关技术中存在的问题,本申请提供数据融合方法及终端,有助于实现形成元数据规范,数据标准统一,数据格式整齐的数据融合。为实现以上目的,本申请采用如下技术方案:第一方面,本申请提供一种数据融合方法,所述方法包括:接收输入的数据,基于数据的元数据进行数据理解处理,包括:根据数据的数据值进行属性分类,以及为各属性建立对应的有效性判断和数据转换解析器;确定数据的数据值分布情况,并利用所述有效性判断和数据转换解析器进行有效性判断;对判断为有效的数据,利用对应的所述有效性判断和数据转换解析器,进行数据转换,输出融合数据进行存储。进一步地,所述根据数据的数据值进行属性分类,包括:在数据需要补全时,对数据进行元数据补全;<br>对数据值满足预设完整条件的数据列进行分析识别,识别出相关的字段类型和字段长度信息,以此进行属性分类。进一步地,所述属性分类包括:具有特定格式和规范的属性,具有数据字典作为码值转换参照的属性,以及实体类属性;相应地,所述为各属性建立对应的有效性判断和数据转换解析器,包括:对于所述具有特定格式和规范的属性,使用正则表达式或者预设处理程序建立对应的所述有效性判断和数据转换解析器;对于所述具有数据字典作为码值转换参照的属性,使用数据字典建立对应的所述有效性判断和数据转换解析器;对于所述实体类属性,基于现有的规则和数据作为语料,使用机器学习命名实体识别的方法训练得到所述有效性判断和数据转换解析器。进一步地,所述确定数据的数据值分布情况,包括:对数据列中的数据值进行数值范围情况、格式情况和数据长度情况识别,其中,所述数值范围情况展现属性值分布情况,所述格式情况展现属性值的格式分布情况,所述数据长度情况展示属性值按存储时数据长度的分布情况;根据识别的内容,利用对应的所述有效性判断和数据转换解析器进行标记,并根据标记的情况进行统计计算,形成各个维度的分布情况图,用以支持数据有效性判断。进一步地,所述确定数据的数据值分布情况,具体包括:针对所述数值范围情况,对属性值的内容进行穷举分类,再根据值的情况对每个分类下的数据值进行加和,展现各个分类下的数据量情况,空值数据量情况和非法值的数据量情况,其中,如果数据值的内容难以穷举,则按空值情况、有效值和无效值三类进行数据值分布情况展现;针对所述格式情况,对属性值的格式情况进行分类计算,再根据各个格式分类的情况对属性值进行统计,形成相应的分布情况,展现各个格式下的数据量情况和不符合任何格式数据的数据量情况;针对所述数据长度情况,根据属性值的存储长度进行计算并分类,再根据长度分类对所有属性值进行统计,形成相应的数据长度分布情况,其中,如果数据长度类型过多无法穷举,则按长度有效性进行分布展示。进一步地,利用所述有效性判断和数据转换解析器进行有效性判断,包括:对于所述具有特定格式和规范的属性,利用对应的所述有效性判断和数据转换解析器,通过正则表达式和逻辑代码块的方式进行属性值进行区分,符合正则表达式和代码逻辑的属性值标记为有效,否则,标记为无效;对于所述具有数据字典作为码值转换参照的属性,利用对应的所述有效性判断和数据转换解析器,通过正则表达式和数据字典进行有效性判断,符合符合正则表达式和在数据字典范围内可转换的属性值标记为有效,否则,标记为无效;对于所述实体类属性,利用对应的所述有效性判断和数据转换解析器,通过经训练形成的命名实体识别模型和现有的语料,对属性值进行有效性判断,将数据按照有效性和无效性进行分类和标记。进一步地,所述对判断为有效的数据,利用对应的所述有效性判断和数据转换解析器,进行数据转换,输出融合数据进行存储,包括:对于所述具有特定格式和规范的属性,利用对应的所述有效性判断和数据转换解析器,按照该属性的预设规范规则,通过正则匹配和逻辑代码方式进行数据格式、数据长度、数据全角和半角的转换,形成数据格式、数据内容和数据长度符合规范的数据;对于所述具有数据字典作为码值转换参照的属性,利用对应的所述有效性判断和数据转换解析器,按照该属性的字典对照逻辑,通过正则匹配和字典对照规则进行数据格式、数据内容的转换,形成数据内容和数据格式符合数据字典的数据;对于所述实体类属性,利用对应的所述有效性判断和数据转换解析器,通过经训练形成的命名实体识别模型和基础语料库,对数据内容和数据格式进行转换,形成表达统一的数据内容。进一步地,对于所述具有特定格式和规范的属性,所述方法还包括:利用对应的所述有效性判断和数据转换解析器,通过正则匹配提取出数据的有效信息,并进行数据计算转换成价值数据。进一步地,对于所述实体类属性,所述方法还包括:利用对应的所述有效性判断和数据转换解析器,通过规则匹配提取出相关的备选命名实体,再通过基础数据语料进行对照,形成相应的命名实体信息,以完成数据内容的提取转换。第二方面,本申请提供一种数据融合终端,包括:一个或者多个存储器,其上存储有可执行程序;一个或者多个处理器,用于执行所述存储器中的所述可执行程序,以实现上述中任一项所述方法的步骤。本申请采用以上技术方案,至少具备以下有益效果:本申请基于数据的元数据进行数据理解处理,进行属性分类并建立相应的有效性判断和数据转换解析器,根据数据值分布情况进行有效性判断,并对判断有效的数据进行数据转换,输出融合数据进行存储,有助于实现形成元数据规范,数据标准统一,数据格式整齐的数据融合。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是根据一示例性实施例示出的一种数据融合方法的流程图;图2是根据一示例性实施例示出的一种数据融合终端的框图结构示意图。具体实施方式为本文档来自技高网...

【技术保护点】
1.一种数据融合方法,其特征在于,所述方法包括:/n接收输入的数据,基于数据的元数据进行数据理解处理,包括:根据数据的数据值进行属性分类,以及为各属性建立对应的有效性判断和数据转换解析器;/n确定数据的数据值分布情况,并利用所述有效性判断和数据转换解析器进行有效性判断;/n对判断为有效的数据,利用对应的所述有效性判断和数据转换解析器,进行数据转换,输出融合数据进行存储。/n

【技术特征摘要】
1.一种数据融合方法,其特征在于,所述方法包括:
接收输入的数据,基于数据的元数据进行数据理解处理,包括:根据数据的数据值进行属性分类,以及为各属性建立对应的有效性判断和数据转换解析器;
确定数据的数据值分布情况,并利用所述有效性判断和数据转换解析器进行有效性判断;
对判断为有效的数据,利用对应的所述有效性判断和数据转换解析器,进行数据转换,输出融合数据进行存储。


2.根据权利要求1所述的方法,其特征在于,所述根据数据的数据值进行属性分类,包括:
在数据需要补全时,对数据进行元数据补全;
对数据值满足预设完整条件的数据列进行分析识别,识别出相关的字段类型和字段长度信息,以此进行属性分类。


3.根据权利要求1或2所述的方法,其特征在于,所述属性分类包括:具有特定格式和规范的属性,具有数据字典作为码值转换参照的属性,以及实体类属性;
相应地,所述为各属性建立对应的有效性判断和数据转换解析器,包括:
对于所述具有特定格式和规范的属性,使用正则表达式或者预设处理程序建立对应的所述有效性判断和数据转换解析器;
对于所述具有数据字典作为码值转换参照的属性,使用数据字典建立对应的所述有效性判断和数据转换解析器;
对于所述实体类属性,基于现有的规则和数据作为语料,使用机器学习命名实体识别的方法训练得到所述有效性判断和数据转换解析器。


4.根据权利要求3所述的方法,其特征在于,所述确定数据的数据值分布情况,包括:
对数据列中的数据值进行数值范围情况、格式情况和数据长度情况识别,其中,所述数值范围情况展现属性值分布情况,所述格式情况展现属性值的格式分布情况,所述数据长度情况展示属性值按存储时数据长度的分布情况;
根据识别的内容,利用对应的所述有效性判断和数据转换解析器进行标记,并根据标记的情况进行统计计算,形成各个维度的分布情况图,用以支持数据有效性判断。


5.根据权利要求4所述的方法,其特征在于,所述确定数据的数据值分布情况,具体包括:
针对所述数值范围情况,对属性值的内容进行穷举分类,再根据值的情况对每个分类下的数据值进行加和,展现各个分类下的数据量情况,空值数据量情况和非法值的数据量情况,其中,如果数据值的内容难以穷举,则按空值情况、有效值和无效值三类进行数据值分布情况展现;
针对所述格式情况,对属性值的格式情况进行分类计算,再根据各个格式分类的情况对属性值进行统计,形成相应的分布情况,展现各个格式下的数据量情况和不符合任何格式数据的数据量情况;
针对所述数据长度情况,根据属性值的存储长度进行计算并分类,再根据长度分类对所有属性值进行...

【专利技术属性】
技术研发人员:高留杰赵文张世琨李辉
申请(专利权)人:北京北大软件工程股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1