一种基于无限带宽的直连架构计算集群系统及构建方法技术方案

技术编号:13988596 阅读:130 留言:0更新日期:2016-11-13 12:19
本发明专利技术提供了一种基于无限带宽的直连架构计算机集群系统,包括主控单元、拓扑构建模块及计算资源池,其中,所述计算资源池包括至少2个计算单元,所述计算单元包括无限带宽适配模块及路由构建模块;所述计算单元通过无限带宽网络相互连接,计算单元之间的通信无需借助交换机即可实现无损计算性能、网络延迟低的通信交互,降低了集群系统运营维护的成本,提高了集群系统的可靠性;且本发明专利技术所提供的系统扩展性能佳,可以根据不同运算量的需求,随意扩展或缩减系统中计算单元的数目。

【技术实现步骤摘要】

本专利技术涉及高性能计算机集群系统,特别涉及一种基于无限带宽的直连架构计算集群系统及构建方法。
技术介绍
计算机集群是一种计算机系统,它通过一组松散集成的计算机软件和/或硬件连接起来高度紧密地协作完成计算工作,在某种意义上,它们可以被看作一台计算机,集群系统中的单个计算机通常称为节点,通常通过局域网连接。高性能计算集群是计算机集群的一种,采用将计算任务分配到集群的不同计算节点而提高计算能力,主要应用在科学计算和工程计算领域。高性能计算集群通常运行一些并行应用程序,比如基于MPI标准开发的并行计算程序。这一类应用程序可以实现多个计算节点并行执行计算任务,计算节点间通常会有频繁的数据交换和消息传递,因此高性能计算集群通常配置专用的计算网络来进行这些数据交换,计算网络的性能可以在很大程度上影响并行程序的计算效率。目前,计算集群系统大多采用胖树拓扑结构,用交换机进行串连而成(Indirect Network,switch based),透过铜缆或光缆进行数据交换。在集群系统做跨节点运算时,透过TCP/IP协定,数据经网线进入交换机,交换机将数据发送到正确的节点完成通讯,以完成跨节点运算工作。但随著计算机节点数增加,节点间网络通信幅度必然大幅增加,因此,为加速两点间通信时间并减少延迟,系统对交换机的需求必然同步增加,进而造成系统整体网络环境复杂,系统建置营运管理成本增加。除上述方案外,还有另一种计算集群系统,其采用全直连拓扑结构,这种架构不需要交换机即可实现所有计算节点的通信交互。但该结构一般只适用于小规模系统,因为对于具有N个计算节点的集群系统而言,采用全直连拓扑结构系统需要配备N*(N-1)个网卡接口,所以对于大规模集群系统而言,该结构的架构难度高、扩展性差、管理不便。
技术实现思路
本专利技术的目的在于克服现有技术不足,提供一种基于无限带宽的直连架构计算集群系 统及构建方法,系统内所有计算单元的通信交互无需通过交互机完成,系统易于构建,扩展性强,可适用于大规模计算集群,且系统采用了无限带宽通信技术,满足了集群系统对于带宽及通信延迟的需求。本专利技术为实现上述目的采用以下的技术方案:一方面,本专利技术提供了一种基于无限带宽的直连架构计算机集群系统,包括拓扑构建模块及计算资源池;所述计算资源池与所述拓扑构建模块相连;其中,所述计算资源池包括至少2个计算单元,所述计算单元通过无限带宽网络相互连接;所述计算单元包括无限带宽适配模块及路由构建模块;所述拓扑构建模块用于获取所述计算单元的总数及每个所述计算单元的邻居数,并得出最大邻居数,并根据所述最大邻居数计算网络维度,并根据所述计算单元总数及网络维度生成至少一个网络拓扑图,并将所有所述网络拓扑图发送给所述计算资源池;所述无限带宽适配模块用于提供基于无限带宽协议的数据传输服务,以实现各个所述计算单元之间的数据通信交互;所述路由构建模块用于获取所有所述网络拓扑图,并根据各个所述网络拓扑图计算本所述计算单元与其他所述计算单元之间所有可能的通信路径,并生成全路径路由表;所述路由构建模块还用于确定所述全路径路由表中实际存活的路由路径,即能够实际通信的路由路径,并根据实际存活的路由路径生成通信路由表,所述通信路由表按照路由路径的目的IP地址进行分组,并对每个分组内的路由路径按照路径经过的跳数进行升序排序。在本专利技术一实施例中,所述基于无限带宽的直连架构计算机集群系统还包括主控单元,所述主控单元与任意一个所述计算单元相连;所述主控单元用于获取任务,并将所述任务分割后发送到相连的所述计算单元中,再通过该所述计算单元分配到其他所述计算单元,所述主控单元还用于初始化所述计算单元。在本专利技术一实施例中,所述主控单元包括任务获取模块、任务分配模块及初始化模块;其中,所述任务获取模块用于获取任务,所述任务分配模块用于将所述任务分割成若干子任务,并为所述子任务分配计算单元,所述任务分配模块还用于将所述子任务发送到计算资源池中,所述初始化模块用于为所述计算单元分配IP地址,还用于初始化所述拓扑构建模块及所述路由构建模块。在本专利技术一实施例中,所述主控单元还包括状态读取模块及反馈模块,所述状态读取 模块用于读取所述计算单元的工作状态,并发送给所述反馈模块,所述反馈模块用于向用户反馈接收到的所述计算单元的工作状态。在本专利技术一实施例中,所述主控单元还包括资源分配模块及资源调整模块;所述资源分配模块用于对获取到的任务设置资源获取权限及分配初始资源;所述资源调整模块用于根据各个任务的资源获取权限调整各个任务所能占有的资源。在本专利技术一实施例中,所述拓扑构建模块通过遍历所述计算单元的IP地址获取所述计算单元总数及最大邻居数。在本专利技术一实施例中,所述拓扑构建模块设置在所述主控单元中。在本专利技术一实施例中,可选的,所述主控单元还用于获取用户输入的计算单元总数及最大邻居数,并将所述计算单元总数及最大邻居数发送到所述拓扑构建模块,所述拓扑构建模块根据接收到计算单元总数及最大邻居生成网络拓扑图。在本专利技术一实施例中,所述主控单元可为任意一个所述计算单元。在本专利技术另一实施方式中,本专利技术第一方面所提供的系统还包括总路由构建模块,所述总路由构建模块与所述计算资源池相连,所述总路由构建模块还与所述拓扑构建模块相连;所述总路由构建模块用于获取所有所述计算单元的IP地址,所述总路由构建模块还用于获取所有网络拓扑图,并根据所述网络拓扑图生成所有计算单元之间所有可能的通信路径,并按照起始计算单元的IP地址生成至少一个全路径路由表,并将所述全路径路由表发送到对应的计算单元中,所述计算单元中的路由构建模块根据接收到的全路径路由表确定实际存活的路由路径,即能够实际通信的路由路径,并根据实际存活的路由路径生成通信路由表,所述通信路由表按照路由路径的目的IP地址进行分组,并对每个分组内的路由路径按照路径经过的跳数进行升序排序。在本专利技术一实施例中,所述计算单元还包括处理器、内存、本地存储设备、扩展设备接口。另一方面,本专利技术还提供了一种网络拓扑图的生成方法,包括如下步骤:获取网络内的节点总数N及每个节点的邻居节点数,取最大邻居节点数M;计算网络维数K,其中K为以2为底M的对数,并向上取整;构建至少一个K维网络拓扑图,其中每个节点均与2K个邻居节点相连,且最大的维度节点数不大于N-M+2。在本专利技术一实施例中,所述K维拓扑网络其坐标满足:0≤xi≤2Ni-1xjmod2=xj+1mod2每个节点xi连接到2K个邻居节点yi,yi的坐标满足:yi=(xi+1)mod2Ni或者yi=(xi-1+2Ni)mod2Ni其中,mod代表取模运算,坐标点xi代表第i维中任意一个节点,Ni代表第i维度的节点数,其中K=log2M,并向上取整;max1≤i≤KNi≤N-M+2。另一方面,本专利技术还提供了一种路由表的生成方法,包括如下步骤:选定起始节点及目标节点,获取所有网络拓扑图;根据所有获取到的网络拓扑图,计算所述起始节点到所述目标节点的所有路径,并生成全路径路由表;确认全路径路由表中的存活路径,并生成通信路由表;对通信路由表中的路由路径按照路径的目的IP地址进行分组,并对每个分组内的路由路径按照路径经过的跳数进行升序排序。本专利技术的有益效果:本专利技术所提供的基于无限带宽的直连架构本文档来自技高网
...

【技术保护点】
一种基于无限带宽的直连架构计算机集群系统,其特征在于,包括拓扑构建模块及计算资源池;所述计算资源池分别与所述主控单元及所述拓扑构建模块相连;其中,所述计算资源池包括至少2个计算单元,所述计算单元通过无限带宽网络相互连接;所述计算单元包括无限带宽适配模块及路由构建模块;所述拓扑构建模块用于获取所述计算单元的总数及每个所述计算单元的邻居数,并得出最大邻居数,并根据所述最大邻居数计算网络维度,并根据所述计算单元的总数及所述网络维度生成至少一个网络拓扑图,并将所有所述网络拓扑图发送给所述计算资源池;所述无限带宽适配模块用于提供基于无限带宽协议的数据传输服务,以实现各个所述计算单元之间的数据通信交互;所述路由构建模块用于获取所有所述网络拓扑图,并根据各个所述网络拓扑图计算本所述计算单元与其他所述计算单元之间所有可能的通信路径,并生成全路径路由表;所述路由构建模块还用于确定所述全路径路由表中实际存活的路由路径,并根据实际存活的路由路径生成通信路由表,所述通信路由表按照路由路径的目的IP地址进行分组,并对每个分组内的路由路径按照路径经过的跳数进行升序排序。

【技术特征摘要】
1.一种基于无限带宽的直连架构计算机集群系统,其特征在于,包括拓扑构建模块及计算资源池;所述计算资源池分别与所述主控单元及所述拓扑构建模块相连;其中,所述计算资源池包括至少2个计算单元,所述计算单元通过无限带宽网络相互连接;所述计算单元包括无限带宽适配模块及路由构建模块;所述拓扑构建模块用于获取所述计算单元的总数及每个所述计算单元的邻居数,并得出最大邻居数,并根据所述最大邻居数计算网络维度,并根据所述计算单元的总数及所述网络维度生成至少一个网络拓扑图,并将所有所述网络拓扑图发送给所述计算资源池;所述无限带宽适配模块用于提供基于无限带宽协议的数据传输服务,以实现各个所述计算单元之间的数据通信交互;所述路由构建模块用于获取所有所述网络拓扑图,并根据各个所述网络拓扑图计算本所述计算单元与其他所述计算单元之间所有可能的通信路径,并生成全路径路由表;所述路由构建模块还用于确定所述全路径路由表中实际存活的路由路径,并根据实际存活的路由路径生成通信路由表,所述通信路由表按照路由路径的目的IP地址进行分组,并对每个分组内的路由路径按照路径经过的跳数进行升序排序。2.如权利要求1所述的基于无限带宽的直连架构计算机集群系统,其特征在于,还包括主控单元,所述主控单元与任意一个计算单元相连;其中,所述主控单元用于获取任务,并将所述任务分割后发送到相连的所述计算单元中,再通过该所述计算单元分配到其他所述计算单元,所述主控单元还用于初始化所述计算单元。3.如权利要求2所述的基于无限带宽的直连架构计算机集群系统,其特征在于,所述主控单元包括任务获取模块、任务分配模块及初始化模块;其中,所述任务获取模块用于获取任务,所述任务分配模块用于将所述任务分割成若干子任务,并为所述子任务分配计算单元,所述任务分配模块还用于将所述子任务发送到计算资源池中,所述初始化模块用于为所述计算单元分配IP地址,还用于初始化所述拓扑构建模块及所述路由构建模块。4.如权利要求1所述的基于无限带宽的直连架构计算机集群系统,其特征在于,所述主控单元还包括状态读取模块及反馈模块,所述状态读取模块用于读取所述计算单元的工作状态,并发送给所述反馈模块,所述反馈模块用于向用户反馈接收到的所述计算单元的工作状态。5.如...

【专利技术属性】
技术研发人员:林铭杰叶政晟张彦彬
申请(专利权)人:广州高能计算机科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1