【技术实现步骤摘要】
一种异构的AI计算平台
[0001]本申请涉及智能计算平台
,尤其涉及一种异构的
AI
计算平台
。
技术介绍
[0002]相关技术中,异构的智能计算平台通常使用众多基于
AI SoC(
人工智能片上系统
)、GPU(
图形处理器
)
及
FPGA(
现场可编程门阵列
)
等的类脑计算模块,而且每个类脑计算模块在执行计算任务时均需运行多个应用组件以对其服务,当用户在替换或升级类脑计算模块时,相应的应用组件也需进行移植,如此便需要在
AI SoC
的
SDK(
软件开发工具包
)
中重新开发应用组件,这将大大增加开发时间和成本;此外,用户在开发应用组件时,必须要去了解底层硬件的架构,并且部署相关操作系统环境,比如需要了解底层每个
CPU(
中央处理器
)、APU(
加速处理器
)、GPU、FPGA
的架构和使用方法,一般需要3~6个月的时间,这也为开发时间和成本带来了很大的不利影响
。
[0003]因此,有必要对现有的智能计算平台进行改进
。
技术实现思路
[0004]本申请提供了一种异构的
AI
计算平台,旨在解决相关技术中用户在开发异构的智能计算平台的应用组件时的开发时间和成本较大的问题
。
[0005]为了解决相关技术中所存在的 ...
【技术保护点】
【技术特征摘要】
1.
一种异构的
AI
计算平台,其特征在于,包括:若干个计算节点,每个所述计算节点均配置有计算模块,所述计算模块用于执行相应的计算任务;主控模块,各所述计算模块均通过数据总线与所述主控模块通讯连接,所述主控模块中部署有软件系统,所述软件系统采用分层式架构,所述软件系统包括硬件层
、
与所述硬件层通讯连接的中间件软件层及与所述中间件软件层通讯连接的应用组件层,所述应用组件层中部署有若干个应用组件,每个所述应用组件均具有各自的应用功能,所述中间件软件层用于屏蔽所述硬件层的资源并为所述应用组件层中的各所述应用组件提供统一的
API
接口,以实现对所述应用组件层中若干个所述应用组件的集群式监管
。2.
根据权利要求1所述的
AI
计算平台,其特征在于,所述
AI
计算平台启动之后,所述中间件软件层读取各所述计算模块的配置文件,所述配置文件中记载有相应所述计算模块工作时所需运行的各所述应用组件,基于每个所述配置文件,建立各所述计算模块与相应的所有所述应用组件之间的通讯连接;其中,针对目标计算模块与相应的各目标应用组件,所述中间件软件层将各所述目标应用组件定义为所述目标计算模块的主组件,并在其它所述计算模块的所述主组件中定义与各所述目标应用组件相对应的备份组件
。3.
根据权利要求2所述的
AI
计算平台,其特征在于,当所述主组件的状态值更改时,所述主组件向相应的所述备份组件发送更改后的状态值,所述备份组件依据更改后的状态值进行自身状态值的更新;其中,所述备份组件始终处于运行状态
、
且不对外发送数据
。4.
根据权利要求2所述的
AI
计算平台,其特征在于,所述中间件软件层还用于对各所述应用组件进行故障检测,若检测到故障应用组件,则利用相应的所述备份组件接替所述故障应用组件的工作
。5.
根据权利要求2所述的
AI
计算平台,其特征在于,每个所述计算节点还配置有故障监测模块,所述中间件软件层还用于对各所述计算模块进行故障检测,方案为:每个所述故障监测模块均向其它的所述故障监测模块发送试探信息,当除目标故障监测模块以外的其它所述故障监测模块超过预定时长未接收到来自于所述目标故障监测模块的试探信息时,判定与所述目标故障监测模块相应的所述计算模块为故障计算模块;其中,检...
【专利技术属性】
技术研发人员:蒋祺明,张博,滕桂松,
申请(专利权)人:上海领存信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。