一种多源异构数据处理方法和系统技术方案

技术编号：39048353 阅读：8 留言：0更新日期：2023-10-10 12:01

本发明专利技术涉及信息处理领域，公开了一种多源异构数据处理方法和系统，通过配置服务器群包括元服务器，数据服务器，关系服务器及控制器；通过关系服务器根据历史知识图谱和词典数据的信息，将元数据归属于不同的主题下，通过构建主题之间的逻辑关联关系，对获取到的数据做清洗；借助于控制器和用户的反馈机制，通过触发验证机制，预先在数据服务器中对数据源做标引，执行数据信息的可信度评估并做约束控制，有效保障异构数据处理的效率和便捷。有效保障异构数据处理的效率和便捷。有效保障异构数据处理的效率和便捷。

全部详细技术资料下载

【技术实现步骤摘要】
一种多源异构数据处理方法和系统

[0001]本专利技术涉及信息处理领域，特别是一种多源异构数据处理方法和系统。

技术介绍

[0002]在大规模分布式系统中，数据分布在多个数据源中，数据源采用的数据存储并不相同，每个数据源由不同的组件和服务实例对数据源中的数据进行读取、使用、更新、维护和分析，也就是说在大规模系统中现实世界的同一个实体相关的数据是分布、异构的。当进行元数据管理时，对于某一个实体来说，需要从多个数据源中收集该实体相关的元数据，克服异构数据源带来的复杂性；对于存在关系的多个实体来说，需要收集与这些实体所有相关的元数据并成功地捕获实体之间的关联关系。
[0003]以釆用面向服务架构的分布式系统为例，系统中包含多个服务，每个服务访问若干个数据源，这些数据源之间可能存在异构性；一个数据源会被多个服务所访问，这些服务之间可能存在调用关系。数据之间存在多源性，同时不同数据之间又存在相互关联关系，如何充分利用现有数据之间的关联关系以及配置数据存储服务器，以解决数据之间的冲突，保证被访问数据的安全性和便捷控制，成为关注的热点。

技术实现思路

[0004]为解决上述问题之一，本专利技术提出一种多源异构数据处理方法和系统。
[0005]一种多源异构数据处理方法，其包括：
[0006]所述方法包括：配置服务器群的功能；所述服务器群包括元服务器，数据服务器，关系服务器及控制器；所述数据服务器保存收集到的异构数据，并将收集到的异构数据做处理并转换为标准形式，将提取出的元数据存储在对应的元服务...

【技术保护点】

【技术特征摘要】
1.一种多源异构数据处理方法，其特征在于：所述方法包括：配置服务器群的功能；所述服务器群包括元服务器，数据服务器，关系服务器及控制器；所述数据服务器保存收集到的异构数据，并将收集到的异构数据做处理并转换为标准形式，将提取出的元数据存储在对应的元服务器中；所述关系服务器中存储有历史知识图谱数据和词典数据，关系服务器根据历史知识图谱和词典数据的信息，将元数据归属于不同的主题下，通过构建主题之间的逻辑关联关系，对获取到的数据做清洗；所述逻辑关系为不同数据归属主题之间的关联依存概率；所述控制器用于当持续反馈数据异常时，触发服务器集群的验证机制，所述验证机制对数据服务器中标引的数据源内的数据做合法验证，数据源内的数据合法验证包括数据语法、数据属性和精度的验证；根据数据源的合法验证结果，对数据源所存储的数据服务器做信息可信度评估，基于该可信度评估，控制器调度对对应数据服务器的访问；其中，所述数据属性的验证包括对同一主题下的数据执行离群数据检测；所述离群数据检测具体包括，基于历史信息值及基于所在网络节点获得数据的相似度，所述相似度采用欧拉距离或余弦近似度来度量；将局部可疑离群数据通过广播的方式，发送到临近的节点进行验证；如果临近的节点确认为其离群数据，节点继续广播方式向所述其它近邻节点寻求确认，当其它节点确定离群值的数量满足预定阈值时判定为离群值。2.如权利要求1所述的方法，其特征在于：关系服务器进一步包括：获取网站数据，提取数据属性的关联关系，根据逻辑树中的依赖关系，对不符合逻辑树关系的数据做过滤。3.如权利要求2所述的方法，其特征还在于：所述将元数据归属于不同的主题下包括：将采集到的元数据...

【专利技术属性】
技术研发人员：李响，黄海峰，孙丽娟，谢红韬，丁洪鑫，汪榕，谢真强，
申请(专利权)人：中电科大数据研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人