本发明专利技术涉及一种异构运算集群开关机控制方法、电路及存储介质。本发明专利技术响应于开机信号,每个机尾立即执行开机动作并在开机过程中发出机尾开机中信号,直至所述机尾开机完成;每个机头响应于所述机尾开机中信号的结束,立即执行开机动作并在开机过程中发出机头开机中信号,直至所述机头开机完成;实现机尾和机头的联动开机控制。响应于关机信号,每个所述机头立即执行关机动作并在关机过程发出机头关机中信号,直至所述机头关机完成;所述机尾响应于所述机头关机中信号的结束,立即执行关机动作并在关机过程中发出机尾关机中信号,直至所述机尾关机完成。实现机尾和机头的联动开机控制。控制。控制。
【技术实现步骤摘要】
一种异构运算集群开关机控制方法、电路及存储介质
[0001]本专利技术涉及异构运算集群开关机控制
,尤其涉及一种异构运算集群开关机控制方法、电路及存储介质。
技术介绍
[0002]随着AI计算、高性能运算、人工智能应用的迅速发展,推动了异构运算设备的广泛应用。参阅图1和图2所示,为了获取更加强大的异构运算设备计算能力和扩展性能,通常将多个GPU模组放置到独立的机箱中与CPU服务器分开,CPU服务器通常称为机头,GPU盒子通常称为机尾,两者之间使用PCIe高速线缆通信。
[0003]GPU盒子与CPU服务器分开后,两个设备的开关顺序有特定要求。正常的开机顺序为:GPU盒子系统先上电/开机,然后CPU服务器再上电/开机。CPU服务器在开机后会初始化所有内部以及外部设备然后才能应用。如果外部设备在CPU服务器开机后才上电或开机,会出现CPU服务器无法与GPU盒子建立PCIe通信连接,进而无法执行GPU程序或者数据。正常的关机顺序为:CPU服务器端先安全下电/关机,然后GPU盒子再下电/关机。CPU服务器在关闭过程中,应该是先关闭所有外设以及应用程序。如果这时候外设如果先或关机断电会导致正在运行的程序或者正在存储的数据丢失,严重时出现宕机。使用过程中,机房服务人员需要等待并确认机尾开机完成后(2分钟以上),再去控制机头开机。当大量产品集中交付时,服务人员工作量较大,此方案耗费人力且效率低。依靠人工主动控制开关机顺序,风险不受控。稍有疏忽就可能操作错误,导致CPU服务器未能与GPU盒子建立通信连接。不适用于复杂的多机头和多机尾互连集群。每个机头都连接着每个机尾,连接拓扑复杂。人工操作开关机顺序,繁琐且很容易出错。
技术实现思路
[0004]为了解决上述技术问题或者至少部分地解决上述技术问题,本专利技术提供一种异构运算集群开关机控制方法、电路及存储介质。
[0005]第一方面,本专利技术提供一种异构运算集群开关机控制方法,应用于包含机头和机尾的异构运算集群,包括:
[0006]响应于开机信号,每个所述机尾立即执行开机动作并在开机过程中发出机尾开机中信号,直至所述机尾开机完成;所述机头响应于所述机尾开机中信号的结束,立即执行开机动作并在开机过程中发出机头开机中信号,直至所述机头开机完成;
[0007]响应于关机信号,每个所述机头立即执行关机动作并在关机过程发出机头关机中信号,直至所述机头关机完成;所述机尾响应于所述机头关机中信号的结束,立即执行关机动作并在关机过程中发出机尾关机中信号,直至所述机尾关机完成。
[0008]更进一步地,所述机头和机尾连接上拉电平的指令信号线、机头状态信号线和机尾状态信号线;
[0009]所述指令信号线传输控制信号,所述控制信号包括:所述开机信号、所述关机信
号、重启信号、机尾开机信号、机头开机信号、机尾关机信号和机头关机信号;
[0010]所述机头状态信号线传输机头状态信号,所述机头状态信号包括:所述机头开机中信号和所述机头关机中信号;
[0011]所述机尾状态信号线传输机尾状态信号,所述机尾状态信号包括:所述机尾开机中信号和所述机尾关机中信号。
[0012]更进一步地,响应于所述重启信号,每个所述机头立即执行关机动作并在关机过程发出机头关机中信号,直至所述机头关机完成;所述机尾响应于所述机头关机中信号的结束,立即执行关机动作并在关机过程中发出机尾关机中信号,直至所述机尾关机完成;响应于所述机尾关机中信号的结束,每个所述机尾等待设定时间后执行开机动作并在开机过程中发出机尾开机中信号,直至所述机尾开机完成;所述机头响应于所述机尾开机中信号的结束,立即执行开机动作并在开机过程中发出机头开机中信号,直至所述机头开机完成。
[0013]更进一步地,响应于机头开机信号,每个所述机头立即执行开机动作并在开机过程中发出机头开机中信号,直至所述机头开机完成;
[0014]响应于机头关机信号,每个所述机头立即执行关机动作并在关机过程中发出机头关机中信号,直至所述机头关机完成;
[0015]响应于机尾开机信号,每个所述机尾立即执行开机动作并在开机过程中发出机尾开机中信号,直至所述机尾开机完成;
[0016]响应于机尾关机信号,每个所述机尾立即执行关机动作并在关机过程中发出机尾关机中信号,直至所述机尾关机完成。
[0017]更进一步地,每个所述机尾在开机或关机过程中拉低所述机尾状态线,在开机或关机完成后拉高所述机尾状态线;
[0018]每个所述机头在开机或关机过程中拉低所述机头状态线,在开机完成后拉高所述机头状态线。
[0019]任意一个所述机尾将所述机尾状态线拉低产生机尾开机信号,全部所述机尾将所述机尾状态线拉高时,所述机尾开机信号结束;任意一个所述机头将所述机头状态线拉低产生机头开机信号,全部所述机头将所述机头状态线拉高时,所述机头开机信号结束。
[0020]更进一步地,所述开机信号、关机信号、重启信号、机尾开机信号、机头开机信号、机尾关机信号和机头关机信号的脉冲宽度不同。
[0021]更进一步地,所述指令信号线所连接的任一所述机头或所述机尾响应于接收到的开机命令、关机命令、重启命令、机尾开机命令、机头开机命令、机尾关机命令和机头关机命令,在所述指令信号线上发送相应的开机信号、关机信号、重启信号、机尾开机信号、机头开机信号、机尾关机信号和机头关机信号,其中,所述开机命令、关机命令、重启命令、机尾开机命令、机头开机命令、机尾关机命令和机头关机命令来自于管理网络或操作按键。
[0022]第二方面,本专利技术提供一种异构运算集群开关机控制电路,其特征在于,包括:
[0023]配置于每个作为机头的CPU服务器和作为机尾的GPU盒子中的控制器,每个所述控制器通过GPIO分别连接开关机控制线缆,其中,所述开关机控制线缆包括上拉电平的指令信号线、机头状态信号线和机尾状态信号线,所述控制器配置存储计算机程序的存储介质,所述控制器执行所述计算机程序实现所述的异构运算集群开关机控制方法。
[0024]更进一步地,所述开关机控制线缆每隔设定距离配置用于连接所述控制器的接
口。
[0025]第三方面,本专利技术提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,所述计算机程序被控制器执行时,实现所述的异构运算集群开关机控制方法。
[0026]本专利技术实施例提供的上述技术方案与现有技术相比具有如下优点:
[0027]本申请不再需要人工分别控制机头和机尾开/关机顺序,通过指令信号线、机头状态信号线和机尾状态信号线的控制,联动机头和机尾的开关机控制过程,操作更简单,节省人力资源。本申请可支持复杂的互连拓扑的异构运算集群,可实现一键式复杂异构运算集群的开关机控制。本申请能够提高异构运算集群开关机控制的可靠性。通过预设的计算机程序控制开/关机顺序,可以避免人工操作的错误。
附图说明
[0028]此处的附图被并入说明书中并构成本说明书的一部分,示出了符本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种异构运算集群开关机控制方法,应用于包含机头和机尾的异构运算集群,其特征在于,包括:响应于开机信号,每个所述机尾立即执行开机动作并在开机过程中发出机尾开机中信号,直至所述机尾开机完成;所述机头响应于所述机尾开机中信号的结束,立即执行开机动作并在开机过程中发出机头开机中信号,直至所述机头开机完成;响应于关机信号,每个所述机头立即执行关机动作并在关机过程发出机头关机中信号,直至所述机头关机完成;所述机尾响应于所述机头关机中信号的结束,立即执行关机动作并在关机过程中发出机尾关机中信号,直至所述机尾关机完成。2.根据权利要求1所述的异构运算集群开关机控制方法,其特征在于,所述机头和机尾连接上拉电平的指令信号线、机头状态信号线和机尾状态信号线;所述指令信号线传输控制信号,所述控制信号包括:所述开机信号、所述关机信号、重启信号、机尾开机信号、机头开机信号、机尾关机信号和机头关机信号;所述机头状态信号线传输机头状态信号,所述机头状态信号包括:所述机头开机中信号和所述机头关机中信号;所述机尾状态信号线传输机尾状态信号,所述机尾状态信号包括:所述机尾开机中信号和所述机尾关机中信号。3.根据权利要求2所述的异构运算集群开关机控制方法,其特征在于,响应于所述重启信号,每个所述机头立即执行关机动作并在关机过程发出机头关机中信号,直至所述机头关机完成;所述机尾响应于所述机头关机中信号的结束,立即执行关机动作并在关机过程中发出机尾关机中信号,直至所述机尾关机完成;响应于所述机尾关机中信号的结束,每个所述机尾等待设定时间后执行开机动作并在开机过程中发出机尾开机中信号,直至所述机尾开机完成;所述机头响应于所述机尾开机中信号的结束,立即执行开机动作并在开机过程中发出机头开机中信号,直至所述机头开机完成。4.根据权利要求2所述的异构运算集群开关机控制方法,其特征在于,响应于机头开机信号,每个所述机头立即执行开机动作并在开机过程中发出机头开机中信号,直至所述机头开机完成;响应于机头关机信号,每个所述机头立即执行关机动作并在关机过程中发出机头关机中信号,直至所述机头关机完成;响应于机尾开机信号,每个所述机尾立即执行开机动作并...
【专利技术属性】
技术研发人员:田东顺,阮树光,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。