System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及异构算力平台,尤其涉及一种基于标识解析的异构算力共享平台。
技术介绍
1、异构计算(heterogeneous computing)是一种特殊形式的并行和分布式计算,它或是用能同时支持simd方式和mimd方式的单个独立计算机,或是用由高速网络互连的一组独立计算机来完成计算任务。它能协调地使用性能、结构各异的机器以满足不同的计算需求,并使代码(或代码段)能以获取最大总体性能方式来执行。
2、而随着人工智能的快速发展,数据处理对于cpu、gpu、npu、tpu、fpga等异构算力的需求日益增加,现有的平台存在着不能对不同类型算力资源的有效管理和统一调度的技术问题。
3、因此,亟需一种新的技术方案来解决上述技术问题。
技术实现思路
1、本专利技术的目的在于克服上述现有技术的问题,提供了一种基于标识解析的异构算力共享平台,用以解决现有的平台不能对不同类型算力资源的有效管理和统一调度的技术问题。
2、上述目的是通过以下技术方案来实现:
3、一种基于标识解析的异构算力共享平台,包括:
4、算力资源层,所述算力资源层包括若干算力集群,所述算力资源层用于实现各所述算力集群的基础设施资源的统一纳管;
5、标识解析层,所述标识解析层包括标识管理服务、标识解析服务、目录服务和可信认证服务,具体为:
6、所述标识管理服务用于为各所述算力集群及其计算节点提供域名及标识注册服务;
7、所述标识解析服
8、所述目录服务由各所述算力集群建设,负责记录和查询各计算节点的入口;
9、所述可信认证服务通过数字签名链的方法为算力信息提供数据不可篡改的保障;
10、算力调度层,所述算力调度层针对各类作业对计算资源的申请智能地匹配所述算力集群和所述计算节点,实现对所述算力资源的管理和分配;
11、平台支撑层,所述平台支撑层基于智能计算算法及数据处理、模型训练、模型推理智能计算工具实现高质量智能计算服务,通过开放接口、数据资源服务形式提供统一业务服务支撑;
12、运维管理层,所述运维管理层通过用户管理模块、业务管理模块、计费管理模块、日志管理模块、监控告警模块实现算力资源的统一管理。
13、进一步地,在所述算力资源层中,所述基础设施资源包括计算、存储、网络,由不同的硬件架构组成,包括cpu、gpu、fpga和aisc类型。
14、进一步地,在所述在所述标识解析层中,工作流程包括:
15、步骤(1)各所述算力集群在所述标识管理服务中注册,并向各自的所述目录服务提交计算节点索引;同时,所述目录服务器向所述标识解析服务进行标识规则注册,申明新加入的标识由其提供目录服务;
16、步骤(2)各所述算力集群生成用于数字签名的密钥对,私有密钥对各计算节点的算力数据进行数字签名,公共密钥保存到所述解析服务中;通过提交接口将数字签名和密钥编号保存到所述可信认证服务中;
17、步骤(3)使用算力资源时,用户通过查询算力标识符向所述标识解析服务发送算力请求,所述标识解析服务将解析结果即所述目录服务的资源入口反馈给用户;
18、步骤(4)用户向所述目录服务发送查询请求,系统返回计算节点入口地址列表;
19、步骤(5)用户访问计算节点的域名,获得所需算力;
20、步骤(6)用户通过所述解析服务获得所述可信认证服务的访问入口,并通过该入口获取数字签名及密钥编号,根据密钥编号从所述解析服务获取实际公钥,对算力数据进行验签,从而判断是否数据的真实性。
21、进一步地,在所述算力调度层中,所述作业包括:
22、训练作业,用于根据算法需要的数据集、模型和资源配置,申请计算资源进行模型训练;
23、推理作业,用于将算法发布成可访问服务的作业功能;
24、notebook作业,用于在开发者调试阶段完成训练代码的调试工作;
25、可视化作业,用于ai作业运行时提供tensorboard形式的展示;
26、工作流作业,包含多个运行任务,用于任务之间存在一定依赖关系的作业。
27、进一步地,所述算力调度层包括:
28、算力资源监控模块,所述算力资源监控模块负责监控各所述算力集群的资源使用情况,和记录所述算力资源变化情况;
29、算力资源图谱,所述算力资源图谱将不同的所述算力集群构建拓扑关系图,为控制调度引擎提供调度依据;
30、算力度量引擎,所述算力度量引擎对各所述算力集群的计算节点进行统一标准的算力评估;
31、调度策略,所述调度策略包括亲和性调度策略、优先级调度策略、公平调度策略、延迟调度策略、批调度策略、资源拓扑感知策略、抢占调度策略、负载感知调度策略和多集群组调度策略;
32、作业控制器:所述作业控制器用于监听各类作业的实时请求和状态变化信息,解析信息中命令、镜像、数据和资源变量,并根据这些变量执行作业创建、查询、更新、删除操作;
33、作业选择引擎,所述作业选择引擎用于决定作业调度的优先级;
34、控制调度引擎,所述控制调度引擎根据作业选择的结果调度,把调度请求广播出去,根据所述算力资源图谱把作业分配到匹配的算力集群,并把结果实时广播给所述算力资源监控模块;
35、作业调度引擎,所述作业调度引擎根据算力监控数据,决策出当前拥有空闲计算资源的节点,分析计算设备、存储、网络等物理资源信息,负责把作业调度到匹配的计算节点。
36、进一步地,所述作业调度引擎和所述控制调度引擎以广播-拉取-反馈的通信方式保证调度结果和资源信息实时同步的准确性。
37、进一步地,在作用调度时,根据内置调度策略或者用户自定义的调度策略对计算节点进行过滤、打分,并将作业优先调度到已经存在数据的计算节点。
38、进一步地,在所述运维管理层中:
39、所述用户管理模块用于对平台使用者的身份、账户进行管理、权限控制、配额信息管理、用户成员关系管理,实现用户的角色权限管理,控制用户对算力的使用范围,实现对算力资源的统一调配;
40、所述业务管理模块根据用户申请分配相应算力资源,支持报表数据导出、数据分析和对接;
41、所述计费管理模块用于对用户实现配额控制、实时计费、费用充值功能、;
42、所述日志管理模块用于对系统平台运行日志、用户登录操作日志进行记录,以及提供日志追溯、分析及告警功能;
43、所述监控告警模块用于实现针对算力资源、系统服务、业务虚拟机的统一监控告警,支持准实时、细粒度的监测项设置,支持自定义的阈值、告警通知设置,有效降低业务岩机风险。
44、有益效果
45、本专利技术所提供的一种基于标识解本文档来自技高网...
【技术保护点】
1.一种基于标识解析的异构算力共享平台,其特征在于,包括:
2.根据权利要求1所述的一种基于标识解析的异构算力共享平台,其特征在于,在所述算力资源层中,所述基础设施资源包括计算、存储、网络,由不同的硬件架构组成,包括CPU、GPU、FPGA和AISC类型。
3.根据权利要求1所述的一种基于标识解析的异构算力共享平台,其特征在于,在所述在所述标识解析层中,工作流程包括:
4.根据权利要求3所述的一种基于标识解析的异构算力共享平台,其特征在于,在所述算力调度层中,所述作业包括:
5.根据权利要求1所述的一种基于标识解析的异构算力共享平台,其特征在于,所述算力调度层包括:
6.根据权利要求4所述的一种基于标识解析的异构算力共享平台,其特征在于,所述作业调度引擎和所述控制调度引擎以广播-拉取-反馈的通信方式保证调度结果和资源信息实时同步的准确性。
7.根据权利要求4所述的一种基于标识解析的异构算力共享平台,其特征在于,在作用调度时,根据内置调度策略或者用户自定义的调度策略对计算节点进行过滤、打分,并将作业优先调度到已
8.根据权利要求1所述的一种基于标识解析的异构算力共享平台,其特征在于,在所述运维管理层中:
...【技术特征摘要】
1.一种基于标识解析的异构算力共享平台,其特征在于,包括:
2.根据权利要求1所述的一种基于标识解析的异构算力共享平台,其特征在于,在所述算力资源层中,所述基础设施资源包括计算、存储、网络,由不同的硬件架构组成,包括cpu、gpu、fpga和aisc类型。
3.根据权利要求1所述的一种基于标识解析的异构算力共享平台,其特征在于,在所述在所述标识解析层中,工作流程包括:
4.根据权利要求3所述的一种基于标识解析的异构算力共享平台,其特征在于,在所述算力调度层中,所述作业包括:
5.根据权利要求1所述的一种基于标...
【专利技术属性】
技术研发人员:安晋静,环宇翔,马宁,郑立荣,
申请(专利权)人:广东省智能科学与技术研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。