一种多源异构数据处理方法和系统技术方案

技术编号:39048353 阅读:8 留言:0更新日期:2023-10-10 12:01
本发明专利技术涉及信息处理领域,公开了一种多源异构数据处理方法和系统,通过配置服务器群包括元服务器,数据服务器,关系服务器及控制器;通过关系服务器根据历史知识图谱和词典数据的信息,将元数据归属于不同的主题下,通过构建主题之间的逻辑关联关系,对获取到的数据做清洗;借助于控制器和用户的反馈机制,通过触发验证机制,预先在数据服务器中对数据源做标引,执行数据信息的可信度评估并做约束控制,有效保障异构数据处理的效率和便捷。有效保障异构数据处理的效率和便捷。有效保障异构数据处理的效率和便捷。

【技术实现步骤摘要】
一种多源异构数据处理方法和系统


[0001]本专利技术涉及信息处理领域,特别是一种多源异构数据处理方法和系统。

技术介绍

[0002]在大规模分布式系统中,数据分布在多个数据源中,数据源采用的数据存储并不相同,每个数据源由不同的组件和服务实例对数据源中的数据进行读取、使用、更新、维护和分析,也就是说在大规模系统中现实世界的同一个实体相关的数据是分布、异构的。当进行元数据管理时,对于某一个实体来说,需要从多个数据源中收集该实体相关的元数据,克服异构数据源带来的复杂性;对于存在关系的多个实体来说,需要收集与这些实体所有相关的元数据并成功地捕获实体之间的关联关系。
[0003]以釆用面向服务架构的分布式系统为例,系统中包含多个服务,每个服务访问若干个数据源,这些数据源之间可能存在异构性;一个数据源会被多个服务所访问,这些服务之间可能存在调用关系。数据之间存在多源性,同时不同数据之间又存在相互关联关系,如何充分利用现有数据之间的关联关系以及配置数据存储服务器,以解决数据之间的冲突,保证被访问数据的安全性和便捷控制,成为关注的热点。

技术实现思路

[0004]为解决上述问题之一,本专利技术提出一种多源异构数据处理方法和系统。
[0005]一种多源异构数据处理方法,其包括:
[0006]所述方法包括:配置服务器群的功能;所述服务器群包括元服务器,数据服务器,关系服务器及控制器;所述数据服务器保存收集到的异构数据,并将收集到的异构数据做处理并转换为标准形式,将提取出的元数据存储在对应的元服务器中;
[0007]所述关系服务器中存储有历史知识图谱数据和词典数据,关系服务器根据历史知识图谱和词典数据的信息,将元数据归属于不同的主题下,通过构建主题之间的逻辑关联关系,对获取到的数据做清洗;所述逻辑关系为不同数据归属主题之间的关联依存概率;
[0008]所述控制器用于当持续反馈数据异常时,触发服务器集群的验证机制,所述验证机制对各个服务器数据源的数据做合法验证,数据源内的数据合法验证包括数据语法、数据属性和精度的验证;根据数据源的合法验证结果,对数据源存储的数据服务器做信息可信度评估,基于该可信度评估,控制器调度对对应数据服务器的访问;
[0009]其中,所述数据属性的验证包括对同一主题下的数据执行离群数据检测;所述离群数据检测具体包括,基于历史信息值及基于所在网络节点获得数据的相似度,所述相似度采用欧拉距离或余弦近似度来度量;将局部可疑离群数据通过广播的方式,发送到临近的节点进行验证;如果临近的节点确认为其离群数据,节点继续广播方式向所述其它近邻节点寻求确认,当其它节点确定离群值的数量满足预定阈值时判定为离群值。
[0010]优选的,关系服务器进一步包括:用于获取网站数据,提取数据属性的关联关系,根据逻辑树中的依赖关系,对不符合逻辑树关系的数据做过滤。
[0011]优选的,所述将元数据归属于不同的主题下包括:将采集到的元数据做存储,将存储后的元数据特征信息生成主题类型信息,将主题类型信息作为聚合区域,将属于该聚合区域的关键词作为该类数据聚合区域内的数据标引,并将与该关键词相匹配关联的数据,配置到关键词名录下。
[0012]优选的,对数据源的数据做处理,包括在数据源中发现元数据,并对数据做验证和数据清洗;所述原始多源异构数据来自网站页面数据。
[0013]优选的,数据源从原始多源异构数据中收集包括,获取网站或网页的信息,所述对网页或网站数据中的信息提取,不同主题类型之间的业务关联信息,在做元数据发现时,提取数据属性名和数据属性在时序上的先后关系。
[0014]优选的,对获取的到的网站信息中的数据在语义层做融合,将叠加汇聚的多源数据转化为统一的语义内容,具体为转换成形式化的、计算机可读的语义内容。
[0015]优选的,对获取的到的网站信息中的数据在语义层做融合包括对元数据做语义层的融合,对元数据的语义层做融合选用语义细粒度融合,语义细粒度融合采用细粒度融合策略消除数据结构和术语聚集在同一粒度下的不一致和冗余关系。
[0016]优选的,所述细粒度中的融合中的冗余关系包括重复、等价和包容关系。
[0017]优选的,所述离群数据检测具体包括,基于历史信息值及所在节点观测值的相似度定义,将局部可疑离群值通过广播的方式,发送到临近的节点进行验证;如果临近的节点确认为离群值,节点以继续广播方式向其它近邻节点寻求确认。
[0018]优选的,将收集到的数据做处理并转换为标准形式包括:对数据源处上报的数据模型,进行语法和语义分析,抽取出数据属性粒度的名称、类型、取值信息,根据抽取出的数据属性粒度的名称、类型、取值信息生成数据属性级别的元数据对象。
[0019]优选的,将元数据对象构建为图谱,所述元数据对象表示为图谱中的顶点,元数据对象之间的关系用有向边进行建模,采用箭头的方向表示关系的方向。
[0020]优选的还提供一种多源异构数据处理系统,所述系统包括处理器和存储器,所述存储器上存储有计算机程序,所述处理器用于执行存储器上的计算机程序用于实现上述方法。
[0021]本专利技术通过配置服务器群包括元服务器,数据服务器,关系服务器及控制器;通过关系服务器根据历史知识图谱和词典数据的信息,将元数据归属于不同的主题下,通过构建主题之间的逻辑关联关系,对获取到的数据做清洗;借助于控制器和用户的反馈机制,通过触发验证机制,预先在数据服务器的数据源做标引,对存储的数据信息做可信度评估,有效保障了后续异构数据处理的效率和便捷。
附图说明
[0022]通过参考附图会更加清楚的理解本专利技术的特征和优点,附图是示意性的而不应理解为对本专利技术进行任何限制。
[0023]图1是本专利技术方法的流程示意图。
具体实施方式
[0024]参看下面的说明以及附图,本专利技术的这些或其他特征和特点、操作方法、结构的相
关元素的功能、部分的结合以及制造的经济性可以被更好地理解,其中说明和附图形成了说明书的一部分。然而,可以清楚地理解,附图仅用作说明和描述的目的,并不意在限定本专利技术的保护范围。可以理解的是,附图并非按比例绘制。本专利技术中使用了多种结构图用来说明根据本专利技术的实施例的各种变形。
[0025]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0026]需要说明的是,本文中的“/”表示或的意思,例如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
[0027]需要说明的是,为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能或作用基本相同的相本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多源异构数据处理方法,其特征在于:所述方法包括:配置服务器群的功能;所述服务器群包括元服务器,数据服务器,关系服务器及控制器;所述数据服务器保存收集到的异构数据,并将收集到的异构数据做处理并转换为标准形式,将提取出的元数据存储在对应的元服务器中;所述关系服务器中存储有历史知识图谱数据和词典数据,关系服务器根据历史知识图谱和词典数据的信息,将元数据归属于不同的主题下,通过构建主题之间的逻辑关联关系,对获取到的数据做清洗;所述逻辑关系为不同数据归属主题之间的关联依存概率;所述控制器用于当持续反馈数据异常时,触发服务器集群的验证机制,所述验证机制对数据服务器中标引的数据源内的数据做合法验证,数据源内的数据合法验证包括数据语法、数据属性和精度的验证;根据数据源的合法验证结果,对数据源所存储的数据服务器做信息可信度评估,基于该可信度评估,控制器调度对对应数据服务器的访问;其中,所述数据属性的验证包括对同一主题下的数据执行离群数据检测;所述离群数据检测具体包括,基于历史信息值及基于所在网络节点获得数据的相似度,所述相似度采用欧拉距离或余弦近似度来度量;将局部可疑离群数据通过广播的方式,发送到临近的节点进行验证;如果临近的节点确认为其离群数据,节点继续广播方式向所述其它近邻节点寻求确认,当其它节点确定离群值的数量满足预定阈值时判定为离群值。2.如权利要求1所述的方法,其特征在于:关系服务器进一步包括:获取网站数据,提取数据属性的关联关系,根据逻辑树中的依赖关系,对不符合逻辑树关系的数据做过滤。3.如权利要求2所述的方法,其特征还在于:所述将元数据归属于不同的主题下包括:将采集到的元数据...

【专利技术属性】
技术研发人员:李响黄海峰孙丽娟谢红韬丁洪鑫汪榕谢真强
申请(专利权)人:中电科大数据研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1