一种基于多端云计算集群的大数据存储方法及系统技术方案

技术编号:39292126 阅读:16 留言:0更新日期:2023-11-07 11:00
本发明专利技术公开了一种基于多端云计算集群的大数据存储方法及系统,涉及大数据存储技术领域,该方法包括以下步骤:从多个来源采集数据,将其传输至云端,并对数据进行预处理,将预处理数据存储在云端的分布式存储系统中;通过聚类算法对存储在云端的数据进行分析,并将分析结果可视化展示;根据可视化展示的结果,确定中心云数据中心和边缘节点的位置和数量,合理规划数据的分布和复制策略。本发明专利技术采用分布式存储方式可以将数据分成多份进行存储,进一步提高了数据访问速度的同时,从而提高了服务器的稳定性与可靠性,还可以及时发现潜在的异常情况、危险数据或者欺诈行为,进而能够提供更高效、更安全、更可靠的大数据存储方式。更可靠的大数据存储方式。更可靠的大数据存储方式。

【技术实现步骤摘要】
一种基于多端云计算集群的大数据存储方法及系统


[0001]本专利技术涉及大数据存储领域,具体来说,涉及一种基于多端云计算集群的大数据存储方法及系统。

技术介绍

[0002]对于“大数据”,研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产;麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征;大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”;从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术;随着云时代的来临,大数据也吸引了越来越多的关注。
[0003]在大数据存储领域,混合云、多云是未来信息技术基础设施的主流发展方向,但是目前混合云、多云方案落地面临复杂的大数据存储问题,而多云集群的数据管理与控制则是处理该问题的核心之一,并且在多端云计算集群中,数据可能会跨越多个地理位置存储,涉及数据传输和存储的安全问题。需要采取相应的加密和权限控制措施来保护数据的安全,不能及时发现潜在的异常情况、错误或者欺诈行为。
[0004]针对相关技术中的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]针对现有技术的不足,本专利技术提出一种基于多端云计算集群的大数据存储方法及系统,解决了上述
技术介绍
中提出现有的数据可能会跨越多个地理位置存储,涉及数据传输和存储的安全问题。需要采取相应的加密和权限控制措施来保护数据的安全,不能及时发现潜在的异常情况、错误或者欺诈行为问题。
[0006]为实现以上目的,本专利技术通过以下技术方案予以实现:
[0007]根据本专利技术的一个方面,提供了一种基于多端云计算集群的大数据存储方法,该方法包括以下步骤:
[0008]S1、从多个来源采集数据,将其传输至云端,并对数据进行预处理,将预处理数据存储在云端的分布式存储系统中;
[0009]S2、通过聚类算法对存储在云端的数据进行分析,并将分析结果可视化展示;
[0010]S3、根据可视化展示的结果,确定中心云数据中心和边缘节点的位置和数量,合理规划数据的分布和复制策略;
[0011]S4、搭建中心云数据中心,配置硬件资源和网络连接,并安装和配置分布式存储系统;
[0012]S5、在边缘节点上部署存储节点,并安装和配置分布式存储系统客户端,通过配置硬件资源和网络连接与中心云数据中心进行通信和数据同步;
[0013]S6、利用分布式计算框架,将大数据划分成若干较小块数据,并按需求分发和复制到边缘节点上进行处理和储存;
[0014]S7、定期对存储在云端的数据进行备份,以防止数据丢失或损坏,并在需要时进行恢复;
[0015]S8、对存储的较小块数据进行加密处理,并将加密后的较小块数据通过通信协议传输至分布式存储系统中;
[0016]S9、分布式存储系统接收加密后的较小块数据并进行解密,并利用局部离群因子算法对解密得到的较小块数据进行异常值检测,识别潜在的危险数据。
[0017]优选的,所述从多个来源采集数据,将其传输至云端,并对数据进行预处理,将预处理数据存储在云端的分布式存储系统中包括以下步骤:
[0018]S11、获取采集的多个来源相对应的重复数据、缺失值和异常值,并对重复数、缺失值和异常值据进行去噪、滤波及平滑处理;
[0019]S12、将采集的多个来源的数据中未处理的数据行进行联结,生成一个新的数据表,通过外部键值将不同的数据表进行关联,生成一个完整的数据表,并得到准确数据集;
[0020]S13、对准确数据集进行特征提取,排除无关特征,并得到多个来源数据的特征参数,并将特征参数进行可视化展示。
[0021]优选的,所述将采集的多个来源的数据中未处理的数据进行联结,生成一个新的数据表,通过外部键值将不同的数据表进行关联,生成一个完整的数据表,并得到准确数据集包括以下步骤:
[0022]S121、确定不同数据集之间的外键关系;
[0023]S122、根据需要将不同数据表中的数据行相互联结,创建一个新的数据表,并通过指定的外部键值进行关联;
[0024]S123、通过SQL语句中的JOIN操作符,将需要联结的数据表连接在一起;
[0025]S124、在进行联结时,确保数据的完整性约束得到满足;
[0026]S125、完成联结后,插入测试数据检查联结结果是否正确,确保能够正确地被识别和关联,并得到准确数据集。
[0027]优选的,所述通过聚类算法对存储在云端的数据进行分析,并将分析结果可视化展示包括以下步骤:
[0028]S21、预设聚类参数组合列表;
[0029]S22、以待提取对象当前特征数据作为聚类的数据集进行聚类初始化;
[0030]S23、通过聚类算法对数据集进行聚类,得到所有簇的集合;
[0031]S24、根据统计数据得到的集合进行删除处理,剔除集合中不属于特征区域的簇;
[0032]S25、采用集合中删除处理后的簇对特征区域进行更新,确定特征数据。
[0033]优选的,所述预设聚类参数组合列表包括以下步骤:
[0034]S211、从样本中随机的选择C个数据作为初始簇类中心点;
[0035]S212、通过划分算法对数据对象进行聚类,直到质心大小不再变化;
[0036]S213、计算误差平方和,通过C值的大小计算SC的取值;
[0037]S214、重复S211

S213的步骤,直到C值计算完成;
[0038]S215、步骤S211

S214重复进行预设次数,求出SC的平均值;
[0039]S216、选取最小的SC值,将其对应的C值作为最佳的聚类个数。
[0040]优选的,所述利用分布式计算框架,将大数据划分成较小块数据,并按需求分发和复制到边缘节点上进行处理和储存包括以下步骤:
[0041]S61、将大数据切分成可处理的若干较小块数据,并将较小块定义为Input Split;
[0042]S62、编写一个Map函数,将若干较小块数据转换为键值对形式,并针对每个Input Split,执行映射操作;
[0043]S61、将映射输出的键值对根据键进行分区,并按键进行排序;
[0044]S62、在映射结果分区之后,通过规约函数对每个分区内的数据进行局本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多端云计算集群的大数据存储方法,其特征在于,该方法包括以下步骤:S1、从多个来源采集数据,将其传输至云端,并对数据进行预处理,将预处理数据存储在云端的分布式存储系统中;S2、通过聚类算法对存储在云端的数据进行分析,并将分析结果可视化展示;S3、根据可视化展示的结果,确定中心云数据中心和边缘节点的位置和数量,合理规划数据的分布和复制策略;S4、搭建中心云数据中心,配置硬件资源和网络连接,并安装和配置分布式存储系统;S5、在边缘节点上部署存储节点,并安装和配置分布式存储系统客户端,通过配置硬件资源和网络连接与中心云数据中心进行通信和数据同步;S6、利用分布式计算框架,将大数据划分成若干较小块数据,并按需求分发和复制到边缘节点上进行处理和储存;S7、定期对存储在云端的数据进行备份,以防止数据丢失或损坏,并在需要时进行恢复;S8、对存储的较小块数据进行加密处理,并将加密后的较小块数据通过通信协议传输至分布式存储系统中;S9、分布式存储系统接收加密后的较小块数据并进行解密,并利用局部离群因子算法对解密得到的较小块数据进行异常值检测,识别潜在的危险数据。2.根据权利要求1所述的一种基于多端云计算集群的大数据存储方法,其特征在于,所述从多个来源采集数据,将其传输至云端,并对数据进行预处理,将预处理数据存储在云端的分布式存储系统中包括以下步骤:S11、获取采集的多个来源相对应的重复数据、缺失值和异常值,并对重复数、缺失值和异常值据进行去噪、滤波及平滑处理;S12、将采集的多个来源的数据中未处理的数据行进行联结,生成一个新的数据表,通过外部键值将不同的数据表进行关联,生成一个完整的数据表,并得到准确数据集;S13、对准确数据集进行特征提取,排除无关特征,并得到多个来源数据的特征参数,并将特征参数进行可视化展示。3.根据权利要求2所述的一种基于多端云计算集群的大数据存储方法,其特征在于,所述将采集的多个来源的数据中未处理的数据进行联结,生成一个新的数据表,通过外部键值将不同的数据表进行关联,生成一个完整的数据表,并得到准确数据集包括以下步骤:S121、确定不同数据集之间的外键关系;S122、根据需要将不同数据表中的数据行相互联结,创建一个新的数据表,并通过指定的外部键值进行关联;S123、通过SQL语句中的JOIN操作符,将需要联结的数据表连接在一起;S124、在进行联结时,确保数据的完整性约束得到满足;S125、完成联结后,插入测试数据检查联结结果是否正确,确保能够正确地被识别和关联,并得到准确数据集。4.根据权利要求1所述的一种基于多端云计算集群的大数据存储方法,其特征在于,所述通过聚类算法对存储在云端的数据进行分析,并将分析结果可视化展示包括以下步骤:S21、预设聚类参数组合列表;
S22、以待提取对象当前特征数据作为聚类的数据集进行聚类初始化;S23、通过聚类算法对数据集进行聚类,得到所有簇的集合;S24、根据统计数据得到的集合进行删除处理,剔除集合中不属于特征区域的簇;S25、采用集合中删除处理后的簇对特征区域进行更新,确定特征数据。5.根据权利要求4所述的一种基于多端云计算集群的大数据存储方法,其特征在于,所述预设聚类参数组合列表包括以下步骤:S211、从样本中随机的选择C个数据作为初始簇类中心点;S212、通过划分算法对数据对象进行聚类,直到质心大小不再变化;S213、计算误差平方和,通过C值的大小计算SC的取值;S214、重复S211

S213的步骤,直到C值计算完成;S215、步骤S211

S214重复进行预设次数,求出SC的平均值;S216、选取最小的SC值,将其对应的C值作为最佳的聚类个数。6.根据权利要求1所述的一种基于多端云计算集群的大数据存储方法,其特征在于,所述利用分布式计算框架,将大数据划分成较小块数据,并按需求分发和复制到边缘节点上进行处理和储存包括以下步骤:S61、将大数据切分成可处理的若干较小块数据,并将较小块定义为Input Split;S62、编写一个Map函数,将若干较小块数据转换为键值对形式,并针对每个Input Split,执行映射操作;S61、将映射输出的键值对根据键进行分区,并按键进行排序;S62、在映射结果分区之后,通过规约函数对每个分区内的数据进行局部聚合;S65、编写一个Reduce函数,对每个键的所有值...

【专利技术属性】
技术研发人员:席利宝
申请(专利权)人:北京宝联之星科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1