一种基于多源异构数据的融合处理方法技术

技术编号:36162783 阅读:22 留言:0更新日期:2022-12-31 20:11
本发明专利技术提供的一种基于多源异构数据的融合处理方法,所述融合处理方法包括:根据电力大数据技术特性、应用需求和电力时空特性,建立基于业务的数据时空不确定性与多维关联性描述方法;基于多源异构数据清洁方法、融合机制,建立电力大数据的实用化的组织方案,用于实现以客户需求为导向的数据统一表达和优化方法;建立适应数据时空属性动态化的分布存储。提高数据的读取效率。提高数据的读取效率。提高数据的读取效率。

【技术实现步骤摘要】
一种基于多源异构数据的融合处理方法


[0001]本专利技术涉及电力数据领域,尤其涉及一种基于多源异构数据的融合处理方法。

技术介绍

[0002]数据逐渐成为驱动业务运转的重要生产要素,传统数据消费和使用方式将被彻底颠覆。从数据操作情况来看,查询行为占据着用户80%的使用比例,是最常用也是与业务侧最为贴近的数据使用方式,然而传统的基于应用系统功能、简单数据分析报表展示的数据查询和使用方法已无法满足用户的查询需求,随着数据驱动业务、引领业务效能的不断凸显,用户需要能够实现多源异构数据全覆盖的综合性智能检索解决方案。

技术实现思路

[0003]鉴于上述问题,提出了本专利技术以便提供克服上述问题或者至少部分地解决上述问题的一种基于多源异构数据的融合处理方法。
[0004]根据本专利技术的一个方面,提供了一种基于多源异构数据的融合处理方法,所述融合处理方法包括:
[0005]根据电力大数据技术特性、应用需求和电力时空特性,建立基于业务的数据时空不确定性与多维关联性描述方法;
[0006]基于多源异构数据清洁方法、融合机制,建立电力大数据的实用化的组织方案,用于实现以客户需求为导向的数据统一表达和优化方法;
[0007]建立适应数据时空属性动态化的分布存储。
[0008]可选的,所述融合处理方法还包括:建立基于典型应用场景的储存优化机制和储存算法。
[0009]可选的,所述基于多源异构数据清洁方法、融合机制,建立电力大数据的实用化的组织方案具体包括:
[0010]采用ETL技术将各数据资源从源系统中提取,并转换为一个标准的格式;
[0011]应用语义聚类方法完成多源异构数据融合,在数据源端节点并行完成聚类运算中复杂度最高的部分,获得融合数据;
[0012]将所述融合数据合并为中间结果;
[0013]将所述中间结果传送到中心节点并自适应地生成聚类中心。
[0014]可选的,所述建立适应数据时空属性动态化的分布存储具体包括:
[0015]响应用户的资源请求,为应用提供统一的API接口;
[0016]对用户身份进行权限验证,响应用户的资源请求,对所述资源请求进行分类控制,如果验证通过,请求查询缓存或将所述资源请求发送至存储集群,同时负责转发所述资源请求,并进行预取检测;
[0017]维护缓存更新和替换策略,对过期或失效数据进行清除和替换,并响应数据查询;
[0018]接收请求,计算请求和相关请求的访问热度以及系统相对承载力;
[0019]根据所述访问热度和所述系统相对承载力判断是否执行预取操作,如果达到预取条件则触发预取推理,在日志信息的基础上推理得到预取对象,否则不预取信号;
[0020]对预取数据执行生成和删除操作同时维护整个系统的数据副本。
[0021]可选的,所述日志信息包括:日志文件、本体和语义标注资源。
[0022]本专利技术提供的一种基于多源异构数据的融合处理方法,所述融合处理方法包括:根据电力大数据技术特性、应用需求和电力时空特性,建立基于业务的数据时空不确定性与多维关联性描述方法;基于多源异构数据清洁方法、融合机制,建立电力大数据的实用化的组织方案,用于实现以客户需求为导向的数据统一表达和优化方法;建立适应数据时空属性动态化的分布存储。
[0023]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0024]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0025]图1为本专利技术实施例提供的一种基于多源异构数据的融合存储处理方法流程框图;
[0026]图2为本专利技术实施例提供的基于语义聚类的数据融合处理方法流程图;
[0027]图3为本专利技术实施例提供的数据清洗结果示意图;
[0028]图4为本专利技术实施例提供的数据融合结果示意图;
[0029]图5为本专利技术实施例提供的数据采集与传输实验对比;
[0030]图6为本专利技术实施例提供的基于副本及电力应用语义预取的云存储方法的示意图;
[0031]图7为本专利技术实施例提供的存储优化技术测试结果示意图。
具体实施方式
[0032]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0033]本专利技术的说明书实施例和权利要求书及附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元。
[0034]下面结合附图和实施例,对本专利技术的技术方案做进一步的详细描述。
[0035]本专利技术首先根据电力大数据技术特性和应用需求以及电力时空特性,提出了基于业务的数据时空不确定性与多维关联性描述方法,并在描述方法的基础上研究海量多源异构数据清洁方法、融合机制,建立电力大数据的实用化的组织方案,实现以客户需求为导向
的数据统一表达和优化方法;接着研究适应数据时空属性动态化的分布高效存储方案,满足高效检索需求;最后面向典型应用场景进行储存优化机制、算法研究。具体技术方案如图1所示。
[0036]融合阶段及组织存储阶段。在融合阶段,项目首先采用基于延迟差分服务的数据路由方案,解决了海量数据传输问题。在此基础上,采用基于语义聚类的数字电网海量多异构数据整合处理方法,解决了海量多源异构数据的清洁和融合问题,保障了数据的融合效率。在完成海量多源异构数据的清洁和融合,项目进一步引入统一数字电网模型,实现了电网业务数据的统一化表达。
[0037]在组织存储阶段,项目采用了基于电力应用语义建立了副本级云存储预取优化技术,实现了网络负载预测,提高了系统的网络传输效率,为数字电网大脑提供高性能存储后端,该技术的运用有效支持了数字电网大脑多查询并发的顺利执行。
[0038]如图2所示,基于语义聚类的数字电网海量多源异构数据融合处理方法,项目组首次提出了基于语义聚类的数字电网海量多源异构数据融合处理方法,突破了电网环境下多类型数据融合处理难题,支撑了高并发、低延迟的“应搜尽搜时搜”的数据共享。
[0039]首先通过ETL技术将各数据资源从源系统中提取,并被转换为一个标准的格式,再应用语义聚类方法完成多源异构数据融合,在数据源端节点并行完成聚类运算中复杂度最高的部分,将所得结果合并为数据量较小的中间结果,将中间结果传送到中心节点并自适应地生成聚类中心。
[004本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多源异构数据的融合处理方法,其特征在于,所述融合处理方法包括:根据电力大数据技术特性、应用需求和电力时空特性,建立基于业务的数据时空不确定性与多维关联性描述方法;基于多源异构数据清洁方法、融合机制,建立电力大数据的实用化的组织方案,用于实现以客户需求为导向的数据统一表达和优化方法;建立适应数据时空属性动态化的分布存储。2.根据权利要求1所述的一种基于多源异构数据的融合处理方法,其特征在于,所述融合处理方法还包括:建立基于典型应用场景的储存优化机制和储存算法。3.根据权利要求1所述的一种基于多源异构数据的融合处理方法,其特征在于,所述基于多源异构数据清洁方法、融合机制,建立电力大数据的实用化的组织方案具体包括:采用ETL技术将各数据资源从源系统中提取,并转换为一个标准的格式;应用语义聚类方法完成多源异构数据融合,在数据源端节点并行完成聚类运算中复杂度最高的部分,获得融合数据;将所述融合数据合并为中间结果;将所述中间结果...

【专利技术属性】
技术研发人员:王尧邵晶晶宋云奎沈宇红萧展辉李文俊李晓彬黄焯恒
申请(专利权)人:南方电网数字电网研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1