本发明专利技术提供了一种基于聚合树的跨域分布式机器学习的带宽调度方法,属于带宽调度技术领域,该方法包括如下步骤:步骤1:建立聚合树;步骤2:初始化波长;步骤3:获取每条链路的变量;步骤4:计算出波长;步骤5:检测聚合树上所有边的波长约束;步骤6:对于经过边e的任意链路,更新波长,并转至步骤5;步骤7:检测聚合树上所有节点的波长约束;步骤8:对于经过节点v的任意链路,更新波长,并转至步骤7;步骤9:获得聚合树上所有链路的波长分配集合后,对于网络中的其它边,随机分配波长,得到新拓扑;步骤10:返回波长分配集合及新拓扑。本发明专利技术可以定制化最适合的网络拓扑并为聚合树分配适合的带宽。带宽。带宽。
【技术实现步骤摘要】
一种基于聚合树的跨域分布式机器学习的带宽调度方法
[0001]本专利技术涉及带宽调度
,尤其是涉及一种基于聚合树的跨域分布式机器学习的带宽调度方法。
技术介绍
[0002]机器学习已被广泛地应用于各种场景,如语音处理、计算机视觉和区块链等。在语音处理方面,机器学习可用于语音情感的识别、英语语音识别等场景;在计算机视觉方面,机器学习可用于图像识别、视频监控等场景;在区块链方面,机器学习可用于交易行为识别等场景。目前很多的机器学习应用需要使用跨越广域网的数据进行训练,以得到更精确的机器学习模型,这种训练场景被称为跨域分布式机器学习(Geo
‑
Distributed Machine Learning,Geo
‑
DML)。然而,受到稀缺的广域网带宽及数据隐私等限制,不可能把所有数据都跨越广域网传输到一个数据中心进行集中训练。因此,Geo
‑
DML一般采用分层的训练架构,包含数据中心内部的本地模型同步(Local Model Synchronization,LMS)阶段和数据中心间的全局模型同步(Global Model Synchronization,GMS)阶段。首先,在数据中心内,多个计算节点共同完成本地模型训练,可以使用参数服务器架构或All
‑
Reduce架构,其中一个节点(称为本地模型同步节点(Local Model Synchronization Node,LMSN))负责与其它数据中心交互本数据中心内的参数;接着,LMSN节点间跨广域网相互通信完成全局模型同步,每个LMSN节点再把新模型分发给本地数据中心内的计算节点。Geo
‑
DML需要跨广域网执行模型同步,与高速的局域网带宽相比,稀缺的广域网带宽已成为Geo
‑
DML训练的性能瓶颈。
[0003]虽然已有研究是针对稀缺的广域网带宽去加速Geo
‑
DML,如减少跨域的全局模型同步频率、减少跨域传输的参数量等,但这些方法获得的性能提升始终受限于底层的网络带宽。因为广域网带宽相差可达12倍,具有最小带宽的链路就会阻碍GMS过程,从而延长训练时间。
[0004]近些年,越来越多的学者提出结合可重构的光广域网来加速上层应用。实际上,随着智能光器件——可重构的光分插复用器(Reconfigurable Optical Add Drop Multiplexer,ROADM)的使用,现代广域网拓扑都是建立在可重构光层上,每个数据中心面向网络的路由器通过标准短波长连接到ROADM,数据中心间使用光纤进行连接。通过重新配置ROADM,可以改变光纤中承载的波长,从而改变网络层路由器端口的连通性,进而改变了网络层拓扑。另外,软件定义网络也广泛应用于广域网的设计中,它使光广域网可以利用完整的网络信息对网络拓扑进行全局重新配置。然而,大多数现有加速Geo
‑
DML训练的方案都没有利用广域网拓扑的可重构性。目前已有结合可重构的光广域网拓扑来调度数据传输的方案,但它们是针对普通的批量数据传输或多播数据传输,数据传输起点和终点都是确定的,而对于Geo
‑
DML训练来说,LMSN节点间没有固定的数据传输模式,且模型参数在传输过程中还可执行聚合操作以减少网络中的数据量,这样更有得于参数的同步。因此,现有针对批量数据或多播数据的传输算法也并不适用于Geo
‑
DML。
[0005]针对光广域网中批量数据传输的调度方案。在传统方案中,数据传输的起点和目的节点都是提前确定的,需要确定拓扑结构,并为每一条数据流确定路径、速率等,目标一般是最小化所有流的传输时间。如Owan使用模拟退火算法最小化数据传输时间。在每一次迭代训练中,网络中传输的模型参数或更新都可以经过简单加法操作以减少网络中的数据量,这样可大大减少网络拥塞,加快参数同步。然而,这些方案中并没有有效利用DML训练的特点,性能提升受限。
[0006]针对光广域网中多播数据传输的调度方案。在传统方案中,针对每一个多播数据传输需求,建立多棵斯坦纳树,通过建立整数线性规划模型,使用松弛等技术求解每棵树的速率及拓扑的构建,目标是最大化满足时间要求的多播数据传输需求。Geo
‑
DML训练的目标是尽快地收敛到理想模型精度,在训练之前,并不能确定训练结束的时间。对于每一次迭代,目的是加快模型的同步,以尽快进入下一次迭代,并没有规定完成每一次迭代的截止时间。因此,这些最大化满足时间需求的多播数据传输并不适合Geo
‑
DML。
[0007]因此,有必要提供一种基于聚合树的跨域分布式机器学习的带宽调度方法。
技术实现思路
[0008]本专利技术提供了一种基于聚合树的跨域分布式机器学习的带宽调度方法,结合可执行数据聚合的聚合树和可重构光广域网拓扑,提出了RATree(Reconfigurable Aggregation Tree)带宽调度方法,即对于每一个Geo
‑
DML训练任务,定制化最适合的网络拓扑并为聚合树分配适合的带宽。
[0009]为实现上述目的,本专利技术采用了如下技术方案:一种基于聚合树的跨域分布式机器学习的带宽调度方法,包括如下步骤:步骤1:建立包含所有LMSN节点的聚合树;步骤2:初始化聚合树上每条链路的初始波长为0,即链路的波长;步骤3:基于聚合树获取聚合树上每条链路的变量;步骤4:基于变量计算出波长;骤5:检测聚合树上所有边的波长约束;若所有边都检测完成,则转至步骤7,否则,对于未检测的边e,计算经过边e的所有链路的波长之和,若经过边e的所有链路的波长之和小于或等于边e的波长容量,则转至步骤5,否则转至步骤6;步骤6:对于经过边e的任意链路,更新波长,并转至步骤5;其中,为波长;为边e的波长容量;步骤7:检测聚合树上所有节点的波长约束,若所有节点都检测完成,则转至步骤9,否则,对于未检测的节点v,计算经过节点v的所有链路的波长之和,若经过节点v的所有链路的波长之和小于或等于节点v的波长容量,则转至步骤7,否则转至步骤8;步骤8:对于经过节点v的任意链路,更新波长,
并转至步骤7;其中,为波长;为节点v的波长容量;步骤9:获得聚合树上所有链路的波长分配集合后,对于网络中的其它边,在满足节点和边的波长容量约束下,给所述其它边随机分配波长,从而得到新拓扑其中,节点和边分别代表ROADM及ROADM间的光纤,是指给网络中所有边分配的波长集合;步骤10:返回波长分配集合及新拓扑,至此,带宽调度完成。
[0010]本专利技术公开的一个实施例中,步骤3中,使用线性规划求解器求解如下公式:本专利技术公开的一个实施例中,步骤3中,使用线性规划求解器求解如下公式:,;;;,;得到聚合树上每条链路的变量;其中,为聚合树上节点v的完成时间,即节点v上准备好数据的时间;为聚合树上节点的完成时间,即节点上准备好数据的时间;为模型大小;为波长的带宽;为节点v的父节点和子节点的数量之和;为节点v的波长容量;为边e的波本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于聚合树的跨域分布式机器学习的带宽调度方法,其特征在于,包括如下步骤:步骤1:建立包含所有LMSN节点的聚合树;步骤2:初始化聚合树上每条链路的初始波长为0,即链路的波长;步骤3:基于聚合树获取聚合树上每条链路的变量;步骤4:基于变量计算出波长;步骤5:检测聚合树上所有边的波长约束;若所有边都检测完成,则转至步骤7,否则,对于未检测的边e,计算经过边e的所有链路的波长之和,若经过边e的所有链路的波长之和小于或等于边e的波长容量,则转至步骤5,否则转至步骤6;步骤6:对于经过边e的任意链路,更新波长,并转至步骤5;其中,为波长;为边e的波长容量;步骤7:检测聚合树上所有节点的波长约束,若所有节点都检测完成,则转至步骤9,否则,对于未检测的节点v,计算经过节点v的所有链路的波长之和,若经过节点v的所有链路的波长之和小于或等于节点v的波长容量,则转至步骤7,否则转至步骤8;步骤8:对于经过节点v的任意链路,更新波长,并转至步骤7;其中,为波长;为节点v的波长容量;步骤9:获得聚合树上所有链路的波长分配集合后,对于网络中的其它边,在满足节点和边的波长容量约束下,给所述其它边随机分配波长,从而得到新拓扑其中,节点和边分别代表ROADM及ROADM间的光纤,是指给网络中所有边分配的波长集合;步骤10:返回波长分配集合及新拓扑。2.根据权利要求1所述的基于聚合树的跨域分布式机器学习的带宽调度方法,其特征在于,步骤3中,使用线性规划求解器求解...
【专利技术属性】
技术研发人员:刘玲,陈曦,吴涛,周攀,陈飞,曾锐,虞红芳,孙罡,
申请(专利权)人:西南民族大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。