一种海量视频副本存放方法技术

技术编号:24176815 阅读:42 留言:0更新日期:2020-05-16 04:57
本发明专利技术提供一种海量视频副本存放方法,在本地机架中存放备份数据时,根据剩余空间占磁盘总容量的比例进行选择,来减少本地机架上的负载不均衡;在跨机架选择数据节点时,不仅考虑剩余空间存储的因素,也考虑网络开销的影响。有效的解决了负载均衡问题,同时根据Hadoop分布式运算的特点,存放在高带宽、大内存、磁盘利用率高的机器的视频数据可以最大化进行智能视频分析处理。

A storage method of massive video copy

【技术实现步骤摘要】
一种海量视频副本存放方法
本专利技术涉及网络视频
,具体涉及一种网络环境下海量视频副本的存放方法。
技术介绍
HDFS分布式策略在选择存放副本的DataNode时,已经尽可能地选取合适的节点,但是并不是最合适,比如对存储空间的考虑,仅仅只是判断副本是否能够存放到剩余的空间,却忽略了选择剩余空间率最大的数据节点。随机选择数据节点的方式,有很大几率使副本存放在某些空间使用率高的数据节点上,与之相对应的是空间使用率比较低的数据节点上却只有很少的副本。特别是在一个较大的分布式集群已经运行了很久之后,每个数据节点都有比较重的存储负载,此时若有少量的新的空载节点加入,由于系统采用的随机算法,分布式系统有可能继续在有较重存储负担的节点上存储数据,对于新的轻载的数据节点没有有效利用,甚至可能出现重载节点因为耗尽空间而停止服务。经研究表明,在不停向HDFS集群上传数据,当空间使用率超过50%时,负载不均衡现象便会出现。虽然HDFS提供了动态调整集群负载的工具Balancer,然而在利用此工具时,数据迁移占用的网络带宽较大,效率低下,最重要的是需要管理员手动进行操作。由于DataNode上有可能因为数据迁移造成严重的I/O负担,影响了对客户端的读写响应,因而往往只适合在集群空闲时间使用。假设集群进行长时间读写操作,那么某些节点的负载就有可能来不及及时调整,造成集群的负载不均衡度越来越大。
技术实现思路
本专利技术的目的在于对HDFS本身的副本分布策略做出改进,在文件首次写入的时候便对其进行负载均衡处理,让数据块能相对平均的分布在数据节点上,以避免负载不均衡现象。本专利技术的技术方案如下:一种海量视频副本存放方法,其特征在于:(1)在本地机架中存放备份数据时,根据剩余空间占磁盘总容量的比例进行选择,来减少本地机架上的负载不均衡;(2)在跨机架选择数据节点时,不仅考虑剩余空间存储的因素,也考虑网络开销的影响,根据以下等式选择节点:S(数据节点)=f(网络开销,剩余存储容量),其中f(网络开销,剩余存储容量)同时考虑了网络开销与剩余存储容量这两个因素。S(数据节点)是f函数开销最小的数据节点;同时引入变量ɑ,根据以下公式来衡量网络开销以及剩余存储空间所占的比例:S(数据节点)=ɑN+(1-ɑ)C(0<=ɑ<=1)其中N表示当前数据节点网络可用的连接数占总共连接数的比例,C表示剩余存储空间占总空间的比例,ɑ表示两个因素的权重;根据系统的实际情况,确定ɑ值的大小,当网络开销占主导因素时,ɑ值取较大,反之取较小。本专利技术针对原有的hadoop副本放置策略的局限性进行分析,提出并实现了副本分布策略,极为有效的解决了负载均衡问题,同时根据Hadoop分布式运算的特点,存放在高带宽、大内存、磁盘利用率高的机器的视频数据可以最大化进行智能视频分析处理。附图说明图1是本专利技术的视频副本放置策略流程图。具体实施方式如图1所示,本专利技术的实现方式如下:(1)根据剩余空间占磁盘总容量的比例进行选择,来减少本地机架上的负载不均衡。本地机架中存放的备份数据,一般情况下,本地机架中网络情况差异很小,因此只需要考虑数据节点剩余存储空间率来选择节点,代替原来在本地机架中随机选取节点的方式。随机选择数据节点的放置策略不能够保证数据节点均匀存储数据,从而导致某些节点出现频繁的I/O磁盘操作,而有些节点过分空闲的情况。因此选择本机架上的数据节点时,根据剩余空间占磁盘总容量的比例进行选择,来减少本地机架上的负载不均衡。(2)跨机架的选取不仅仅需要考虑剩余空间的存储容量,同时也需要考虑网络状况。在整个机架出现某种故障时,数据的丢失导致无法从本地机架的备份中恢复,而根据默认的放置策略,需要从其他机架中的数据节点中恢复数据,但是默认的策略没有考虑网络带宽、延迟等的因素,因此会影响备份恢复的进度。所以在跨机架选择数据节点时,不仅要考虑剩余空间存储的因素,也应该考虑网络开销的影响。故有以下等式成立:S(数据节点)=f(网络开销,剩余存储容量)(1-1)其中f(网络开销,剩余存储容量)同时考虑了网络开销与剩余存储容量这两个因素。S(数据节点)是f函数开销最小的数据节点。选择节点时,同时考虑了网络开销以及数据节点的剩余存储空间。引入变量ɑ来衡量网络开销以及剩余存储空间所占的比例,有如下公式:S(数据节点)=ɑN+(1-ɑ)C(0<=ɑ<=1)(1-2)其中N表示当前数据节点网络可用的连接数占总共连接数的比例,C表示剩余存储空间占总空间的比例,ɑ表示两个因素的权重。根据系统的实际情况,确定ɑ值的大小。即当网络开销占主导因素时,ɑ值取较大,反之取较小。本文档来自技高网...

【技术保护点】
1.一种海量视频副本存放方法,其特征在于:/n(1)在本地机架中存放备份数据时,根据剩余空间占磁盘总容量的比例进行选择,来减少本地机架上的负载不均衡;/n(2)在跨机架选择数据节点时,不仅考虑剩余空间存储的因素,也考虑网络开销的影响,根据以下等式选择节点:/nS(数据节点)=f(网络开销,剩余存储容量),/n其中f(网络开销,剩余存储容量)同时考虑了网络开销与剩余存储容量这两个因素。S(数据节点)是f函数开销最小的数据节点;/n同时引入变量ɑ,根据以下公式来衡量网络开销以及剩余存储空间所占的比例:/nS(数据节点)=ɑN+(1-ɑ)C(0<=ɑ<=1)/n其中N表示当前数据节点网络可用的连接数占总共连接数的比例,C表示剩余存储空间占总空间的比例,ɑ表示两个因素的权重;根据系统的实际情况,确定ɑ值的大小,当网络开销占主导因素时,ɑ值取较大,反之取较小。/n

【技术特征摘要】
1.一种海量视频副本存放方法,其特征在于:
(1)在本地机架中存放备份数据时,根据剩余空间占磁盘总容量的比例进行选择,来减少本地机架上的负载不均衡;
(2)在跨机架选择数据节点时,不仅考虑剩余空间存储的因素,也考虑网络开销的影响,根据以下等式选择节点:
S(数据节点)=f(网络开销,剩余存储容量),
其中f(网络开销,剩余存储容量)同时考虑了网络开销与剩余存储容量这两个因素...

【专利技术属性】
技术研发人员:张超赵凯
申请(专利权)人:北京航天长峰科技工业集团有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1