【技术实现步骤摘要】
本专利技术涉及高性能计算机集群系统,特别涉及一种基于无限带宽的直连架构计算集群系统及构建方法。
技术介绍
计算机集群是一种计算机系统,它通过一组松散集成的计算机软件和/或硬件连接起来高度紧密地协作完成计算工作,在某种意义上,它们可以被看作一台计算机,集群系统中的单个计算机通常称为节点,通常通过局域网连接。高性能计算集群是计算机集群的一种,采用将计算任务分配到集群的不同计算节点而提高计算能力,主要应用在科学计算和工程计算领域。高性能计算集群通常运行一些并行应用程序,比如基于MPI标准开发的并行计算程序。这一类应用程序可以实现多个计算节点并行执行计算任务,计算节点间通常会有频繁的数据交换和消息传递,因此高性能计算集群通常配置专用的计算网络来进行这些数据交换,计算网络的性能可以在很大程度上影响并行程序的计算效率。目前,计算集群系统大多采用胖树拓扑结构,用交换机进行串连而成(Indirect Network,switch based),透过铜缆或光缆进行数据交换。在集群系统做跨节点运算时,透过TCP/IP协定,数据经网线进入交换机,交换机将数据发送到正确的节点完成通讯,以完成跨节点运算工作。但随著计算机节点数增加,节点间网络通信幅度必然大幅增加,因此,为加速两点间通信时间并减少延迟,系统对交换机的需求必然同步增加,进而造成系统整体网络环境复杂,系统建置营运管理成本增加。除上述方案外,还有另一种计算集群系统,其采用全直连拓扑结构,这种架构不需要交换机即可实现所有计算节点的通信交互。但该结构一般只适用于小规模系统,因为对于具有N个计算节点的集群系统而言,采用全直连拓 ...
【技术保护点】
一种基于无限带宽的直连架构计算机集群系统,其特征在于,包括拓扑构建模块及计算资源池;所述计算资源池分别与所述主控单元及所述拓扑构建模块相连;其中,所述计算资源池包括至少2个计算单元,所述计算单元通过无限带宽网络相互连接;所述计算单元包括无限带宽适配模块及路由构建模块;所述拓扑构建模块用于获取所述计算单元的总数及每个所述计算单元的邻居数,并得出最大邻居数,并根据所述最大邻居数计算网络维度,并根据所述计算单元的总数及所述网络维度生成至少一个网络拓扑图,并将所有所述网络拓扑图发送给所述计算资源池;所述无限带宽适配模块用于提供基于无限带宽协议的数据传输服务,以实现各个所述计算单元之间的数据通信交互;所述路由构建模块用于获取所有所述网络拓扑图,并根据各个所述网络拓扑图计算本所述计算单元与其他所述计算单元之间所有可能的通信路径,并生成全路径路由表;所述路由构建模块还用于确定所述全路径路由表中实际存活的路由路径,并根据实际存活的路由路径生成通信路由表,所述通信路由表按照路由路径的目的IP地址进行分组,并对每个分组内的路由路径按照路径经过的跳数进行升序排序。
【技术特征摘要】
1.一种基于无限带宽的直连架构计算机集群系统,其特征在于,包括拓扑构建模块及计算资源池;所述计算资源池分别与所述主控单元及所述拓扑构建模块相连;其中,所述计算资源池包括至少2个计算单元,所述计算单元通过无限带宽网络相互连接;所述计算单元包括无限带宽适配模块及路由构建模块;所述拓扑构建模块用于获取所述计算单元的总数及每个所述计算单元的邻居数,并得出最大邻居数,并根据所述最大邻居数计算网络维度,并根据所述计算单元的总数及所述网络维度生成至少一个网络拓扑图,并将所有所述网络拓扑图发送给所述计算资源池;所述无限带宽适配模块用于提供基于无限带宽协议的数据传输服务,以实现各个所述计算单元之间的数据通信交互;所述路由构建模块用于获取所有所述网络拓扑图,并根据各个所述网络拓扑图计算本所述计算单元与其他所述计算单元之间所有可能的通信路径,并生成全路径路由表;所述路由构建模块还用于确定所述全路径路由表中实际存活的路由路径,并根据实际存活的路由路径生成通信路由表,所述通信路由表按照路由路径的目的IP地址进行分组,并对每个分组内的路由路径按照路径经过的跳数进行升序排序。2.如权利要求1所述的基于无限带宽的直连架构计算机集群系统,其特征在于,还包括主控单元,所述主控单元与任意一个计算单元相连;其中,所述主控单元用于获取任务,并将所述任务分割后发送到相连的所述计算单元中,再通过该所述计算单元分配到其他所述计算单元,所述主控单元还用于初始化所述计算单元。3.如权利要求2所述的基于无限带宽的直连架构计算机集群系统,其特征在于,所述主控单元包括任务获取模块、任务分配模块及初始化模块;其中,所述任务获取模块用于获取任务,所述任务分配模块用于将所述任务分割成若干子任务,并为所述子任务分配计算单元,所述任务分配模块还用于将所述子任务发送到计算资源池中,所述初始化模块用于为所述计算单元分配IP地址,还用于初始化所述拓扑构建模块及所述路由构建模块。4.如权利要求1所述的基于无限带宽的直连架构计算机集群系统,其特征在于,所述主控单元还包括状态读取模块及反馈模块,所述状态读取模块用于读取所述计算单元的工作状态,并发送给所述反馈模块,所述反馈模块用于向用户反馈接收到的所述计算单元的工作状态。5.如...
【专利技术属性】
技术研发人员:林铭杰,叶政晟,张彦彬,
申请(专利权)人:广州高能计算机科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。