基于树形网络的大数据分析方法及装置制造方法及图纸

技术编号:26890885 阅读:13 留言:0更新日期:2020-12-29 16:07
本发明专利技术涉及大数据技术领域,具体涉及基于树形网络的大数据分析方法及装置。所述方法执行以下步骤:使用预建立的数据分类模型对存储的数据进行分类,得到多个分类后的一级数据集,对每个一级数据集添加至少一个标签;再对每个一级数据集再次进行分类,得到多个分类后的二级数据集;数据分类模型循环执行分类,直到分类后的数据集中具有的元素个数小于等于设定的阈值。其利用数据分类,将数据进行归类,然后纳入树形网络中,并对网络中的节点进行权重标记,在数据繁多的大数据系统中,可以在调用数据时,以更快的速度获取目标数据,有效提升了大数据系统的数据分析效率。

【技术实现步骤摘要】
基于树形网络的大数据分析方法及装置
本专利技术属于大数据
,具体涉及基于树形网络的大数据分析方法及装置。
技术介绍
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。大数据由巨型数据集组成,这些数据集大小常超出人类在可接受时间下的收集、庋用、管理和处理能力。大数据的大小经常改变,截至2012年,单一数据集的大小从数太字节(TB)至数十兆亿字节(PB)不等。而由于数据量巨大,导致大数据系统进行数据分析时,往往会消耗巨大的时间获取目标数据。现有技术中,专利号为CN201510058198.3A的专利公开了一种整合实时和非实时模式的大数据分析系统,该大数据分析系统包括采集系统、任务接口模块、数据整合模块、任务管理模块、资源调度模块、分析处理集群、结果处理模块、分布数据库集群以及中间层接口。本专利技术对外通过统一的中间层接口提供具有实时响应和非实时响应的大数据分析业务,内部则建立了面向实时模式与非实时模式二者统一的数据结构、分析处理运算和结果反馈机制,并且通过基于优先权重参数的资源分配和任务调度,满足不同分析任务实时或者非实时性的响应时间要求。其通过分布式技术,一定程度上提升了数据分析的效率,但其仍然需要消耗巨大的资源和时间在获取目标数据上,数据分析的效率依然较低。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供基于树形网络的大数据分析方法及装置,其利用数据分类,将数据进行归类,然后纳入树形网络中,并对网络中的节点进行权重标记,在数据繁多的大数据系统中,可以在调用数据时,以更快的速度获取目标数据,有效提升了大数据系统的数据分析效率。为达到上述目的,本专利技术的技术方案是这样实现的:基于树形网络的大数据分析方法,所述方法执行以下步骤:步骤1:使用预建立的数据分类模型对存储的数据进行分类,得到多个分类后的一级数据集,对每个一级数据集添加至少一个标签;再对每个一级数据集再次进行分类,得到多个分类后的二级数据集;数据分类模型循环执行分类,直到分类后的数据集中具有的元素个数小于等于设定的阈值;步骤2:基于分类后的数据集构建树形网络;树形网络的根节点为存储的数据;一级子节点为一级数据集;二级子节点为二级数据集;以此类推;步骤3:对树形网络中的每个节点均进行权重标记;步骤4:在针对存储的数据进行数据分析时,使用寻路算法,在树形网络中进行寻路,找到目标数据,获取目标数据,进行数据分析。进一步的,所述数据分类模型对存储的数据进行分类的方法执行以下步骤:获得用于处理所述待分类数据字段的数据库操作语句;对所述数据库操作语句进行解析,获得用于处理所述待分类数据字段的操作参数;针对所述操作参数进行特征提取,获得对应的操作特征;调用训练得到的数据分类模型对所述操作特征进行分类,以获得所述待分类数据字段的分类结果。进一步的,所述步骤4中的寻路算法在树形网络中进行寻路的方法执行以下步骤:步骤4.1:确定树形网络中的目标数据集的起始节点和目标数据集的终节点;步骤4.2:在树形网络中随机选取N个节点,选取的节点至少包含起始节点、终节点以及其他若干个中间节点;步骤4.3:在选取的N个节点中进行节点目标数据集的路径规划,同时,统计路径中的节点的权重值,再重新执行本步骤4次,选取统计路径中的节点权重值的和最大的路径作为路径。进一步的,所述步骤4.3包括:在选取的N个节点中,确定一个中心节点,其坐标为(0,0);定义节点路径权重最大树,节点路径权重最大树包括:节点路径权重最大树根节点和节点路径权重最大树中子节点;所述节点路径权重最大树中子节点可以连接的其他节点;结合能量Sab、路径距离Pab、节点数量Bab和k值更新路径规划的算法公式,其中,k值为邻居节点数量:i和j表示节点;节点路径权重最大树中子节点将其收集到的数据获取给父节点,父节点对其收集到的数据以及子节点发送到的数据进行聚合操作,然后将聚合得到的数据获取给自己父节点直至中心节点;运行设定的时间周期后,进行树的自适应维护更新,继续进行数据的获取。进一步的,所述更新路径规划的算法公式的方法执行以下步骤:将原始的路径规划公式:中的ηab使用新的算子进行更新,更新后的公式为:其中:t表示寻路开始的时刻,τab表示信息素浓度,ηab表示节点a和节点b之间的隔离算子,α与β分别表示信息素浓度与隔离算子的权重,O和BA表示将Sab、Pab和Bab量化到同一量纲上的参数,Ak为量纲域,为设定的一个集合。进一步的,所述操作参数包括:参数as后的字段别名,统计函数,位置where条件参数,连接join条件参数,casewhen函数,关键字参数中的一种或者多种组合;基于树形网络的大数据分析装置,其特征在于,所述装置包括:数据分类装置,配置用于使用预建立的数据分类模型对存储的数据进行分类,得到多个分类后的一级数据集,对每个一级数据集添加至少一个标签;再对每个一级数据集再次进行分类,得到多个分类后的二级数据集;数据分类模型循环执行分类,直到分类后的数据集中具有的元素个数小于等于设定的阈值;树形网络装置,配置用于将分类后的数据集纳入树形网络中;数据调用装置,配置用于针对存储的数据进行数据分析时,使用寻路算法,在树形网络中进行寻路,找到目标数据,获取目标数据,进行数据分析。进一步的,所述所数据分类装置对存储的数据进行分类的方法执行以下步骤:获得用于处理所述待分类数据字段的数据库操作语句;对所述数据库操作语句进行解析,获得用于处理所述待分类数据字段的操作参数;针对所述操作参数进行特征提取,获得对应的操作特征;调用训练得到的数据分类模型对所述操作特征进行分类,以获得所述待分类数据字段的分类结果进一步的,寻路算法在树形网络中进行寻路的方法执行以下步骤:确定树形网络中的目标数据集的起始节点和目标数据集的终节点;在树形网络中随机选取N个节点,选取的节点至少包含起始节点、终节点以及其他若干个中间节点;在选取的N个节点中进行节点目标数据集的路径规划,同时,统计路径中的节点的权重值,再重新执行本步骤4次,选取统计路径中的节点权重值的和最大的路径作为路径。进一步的,所述在选取的N个节点中进行节点目标数据集的路径规划,同时,统计路径中的节点的权重值,再重新执行本步骤4次,选取统计路径中的节点权重值的和最大的路径作为路径的方法执行以下步骤:在选取的N个节点中,确定一个中心节点,其坐标为(0,0);定义节点路径权重最大树,节点路径权重最大树包括:节点路径权重最大树根节点和节点路径权重最大树中子节点;所述节点路径权重最大树中子节点可以连接的其他节点;结合能量Sab、路径距离Pab、节点数量Bab和k值更新路径规划的算法公式,其中,k值为邻居节点数量:i和j表示节点;节点路径权重最大树中子节点将其收集本文档来自技高网
...

【技术保护点】
1.基于树形网络的大数据分析方法,其特征在于,所述方法执行以下步骤:/n步骤1:使用预建立的数据分类模型对存储的数据进行分类,得到多个分类后的一级数据集,对每个一级数据集添加至少一个标签;再对每个一级数据集再次进行分类,得到多个分类后的二级数据集;数据分类模型循环执行分类,直到分类后的数据集中具有的元素个数小于等于设定的阈值;/n步骤2:基于分类后的数据集构建树形网络;树形网络的根节点为存储的数据;一级子节点为一级数据集;二级子节点为二级数据集;以此类推;/n步骤3:对树形网络中的每个节点均进行权重标记;/n步骤4:在针对存储的数据进行数据分析时,使用寻路算法,在树形网络中进行寻路,找到目标数据,获取目标数据,进行数据分析。/n

【技术特征摘要】
1.基于树形网络的大数据分析方法,其特征在于,所述方法执行以下步骤:
步骤1:使用预建立的数据分类模型对存储的数据进行分类,得到多个分类后的一级数据集,对每个一级数据集添加至少一个标签;再对每个一级数据集再次进行分类,得到多个分类后的二级数据集;数据分类模型循环执行分类,直到分类后的数据集中具有的元素个数小于等于设定的阈值;
步骤2:基于分类后的数据集构建树形网络;树形网络的根节点为存储的数据;一级子节点为一级数据集;二级子节点为二级数据集;以此类推;
步骤3:对树形网络中的每个节点均进行权重标记;
步骤4:在针对存储的数据进行数据分析时,使用寻路算法,在树形网络中进行寻路,找到目标数据,获取目标数据,进行数据分析。


2.如权利要求1所述的方法,其特征在于,所述数据分类模型对存储的数据进行分类的方法执行以下步骤:获得用于处理所述待分类数据字段的数据库操作语句;对所述数据库操作语句进行解析,获得用于处理所述待分类数据字段的操作参数;针对所述操作参数进行特征提取,获得对应的操作特征;调用训练得到的数据分类模型对所述操作特征进行分类,以获得所述待分类数据字段的分类结果。


3.如权利要求2所述的方法,其特征在于,所述步骤4中的寻路算法在树形网络中进行寻路的方法执行以下步骤:步骤4.1:确定树形网络中的目标数据集的起始节点和目标数据集的终节点;步骤4.2:在树形网络中随机选取N个节点,选取的节点至少包含起始节点、终节点以及其他若干个中间节点;步骤4.3:在选取的N个节点中进行节点目标数据集的路径规划,同时,统计路径中的节点的权重值,再重新执行本步骤4次,选取统计路径中的节点权重值的和最大的路径作为路径。


4.如权利要求3所述的方法,其特征在于,所述步骤4.3包括:在选取的N个节点中,确定一个中心节点,其坐标为(0,0);定义节点路径权重最大树,节点路径权重最大树包括:节点路径权重最大树根节点和节点路径权重最大树中子节点;所述节点路径权重最大树中子节点可以连接的其他节点;结合能量Sab、路径距离Pab、节点数量Bab和k值更新路径规划的算法公式,其中,k值为邻居节点数量:i和j表示节点;节点路径权重最大树中子节点将其收集到的数据获取给父节点,父节点对其收集到的数据以及子节点发送到的数据进行聚合操作,然后将聚合得到的数据获取给自己父节点直至中心节点;运行设定的时间周期后,进行树的自适应维护更新,继续进行数据的获取。


5.如权利要求4所述的方法,其特征在于,所述更新路径规划的算法公式的方法执行以下步骤:将原始的路径规划公式:中的ηab使用新的算子进行更新,更新后的公式为:其中:t表示寻路开始的时刻,τab表示信息素浓度,ηab表示节点a和节点b之间的隔离算子,α与β分别表示信息素浓度与隔离算子的权重,...

【专利技术属性】
技术研发人员:柴秀富
申请(专利权)人:杭州伍暨通信设备有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1