当前位置: 首页 > 专利查询>英特尔公司专利>正文

使用可编程网络设备的基于度量和安全性的加速器服务重新调度和自动缩放制造技术

技术编号:37172188 阅读:13 留言:0更新日期:2023-04-20 22:42
公开了一种促进使用可编程网络设备的基于度量和安全性的加速器服务重新调度和自动缩放的装置。该装置包括处理器,用于:收集与由服务网格管理的服务的微服务之间的通信链路对应的度量;基于对度量的分析,确定能够通过卸载到硬件加速器设备来加速服务的工作负载;生成用于引起硬件加速器设备被分配给为服务配置的硬件设备集群的缩放请求;引起缩放请求被发送到管理硬件加速器设备的可编程网络设备,可编程网络设备将硬件加速器设备分配给集群,并将硬件加速器设备注册到服务网格;以及将服务的工作负载调度给硬件加速器设备。将服务的工作负载调度给硬件加速器设备。将服务的工作负载调度给硬件加速器设备。

【技术实现步骤摘要】
使用可编程网络设备的基于度量和安全性的加速器服务重新调度和自动缩放


[0001]实施例总体上涉及数据处理,并且更具体地,涉及使用可编程网络设备的基于度量和安全性的加速器服务重新调度和自动缩放。

技术介绍

[0002]在数据中心中,分解式计算(disaggregated computing)正在兴起。云服务提供商(CSP)正在部署解决方案,其中,对工作负载的处理被分布在分解的计算资源上,例如CPU、GPU和硬件加速器(包括现场可编程门阵列(FPGA)),这些资源经由网络连接,而不是位于同一平台上且经由物理链路(例如,外围组件快速互连(PCIe))连接。分解式计算通过使得能够更高效地使用可用资源来提高资源利用率并降低拥有成本。分解式计算还使得能够为大型计算池化大量硬件加速器,从而使计算更高效,执行更好。
[0003]在分解式计算环境中,计算集群中的典型工作节点能够同时处理数百个容器工作负载。这些工作节点还可以具有针对计算密集型任务优化的静态附连的专用硬件加速器。例如,可以优化一类硬件加速器,以高效地运行密码和压缩算法,例如分别是传输层安全(TLS)或zlib。然而,由于资源稀缺,静态硬件加速器资源通常并非对于在工作节点上运行的每个工作负载都是可用的。为了以有意义的方式加速计算繁重的操作,硬件加速器资源不能分散得太开,以至于不能确保服务质量(QoS)。
附图说明
[0004]为了能够详细理解本实施例的上述特征,可以通过参考实施例来对以上简要概括的实施例进行更具体的描述,一些实施例示出在附图中。然而,应当注意,附图示出典型的实施例,因此不应当被认为是对其范围的限制。附图不是按比例绘制的。通常,在整个附图和随附的书面描述中使用相同的附图标记来指代相同或相似的部分。
[0005]图1示出了根据本公开的实现方式的采用XPU调度器扩展器以用于提供使用可编程网络设备的基于度量和安全性的加速器服务重新调度和自动缩放的计算设备。
[0006]图2示出了根据本公开的一个实现方式的图1的XPU调度器扩展器。
[0007]图3示出了根据本公开的实现方式的提供使用可编程网络设备的基于度量和安全性的加速器服务重新调度和自动缩放的数据中心系统。
[0008]图4描绘了根据本公开的实现方式的实现使用可编程网络设备的基于度量和安全性的加速器服务重新调度和自动缩放的数据中心系统400的框图。
[0009]图5是示出用于使用可编程网络设备的基于度量和安全性的加速器服务重新调度和自动缩放的方法的实施例的流程图。
[0010]图6是示出用于在实现使用可编程网络设备的基于度量和安全性的加速器服务重新调度和自动缩放的同时安全性配给的方法的实施例的流程图。
[0011]图7是根据一些实施例的实现使用可编程网络设备的基于度量和安全性的加速器
服务重新调度和自动缩放的说明性电子计算设备的示意图。
具体实施方式
[0012]本公开的实现方式描述了使用可编程网络设备的基于度量和安全性的加速器服务重新调度和自动缩放。云服务提供商(CSP)正在数据中心中部署解决方案,其中,对工作负载的处理被分布在分解的计算资源上,例如中央处理单元(CPU)、图形处理单元(GPU)和/或硬件加速器(包括但不限于现场可编程门阵列(FPGA)或专用集成电路(ASIC)),这些资源经由网络连接(而不是位于同一平台上且经由物理链路(例如,外围组件快速互连(PCIe))连接)。分解式计算通过使得能够更高效地使用可用资源来提高资源利用率并降低拥有成本。分解式计算还使得能够为大型计算池化大量硬件加速器,从而使计算更高效,执行更好。
[0013]服务提供商和企业正在对超大规模数据中心进行大量投资,以为云原生应用和微服务提供高效计算。提供这些服务的应用应当能够访问高速、低时延的存储和安全的联网基础设施。分解式计算解决方案能够提供这种高速、低时延的存储和安全的联网基础设施。然而,基础设施服务(例如,虚拟交换、安全和存储)会消耗大量CPU循环。
[0014]可编程网络设备可以用于加速网络基础设施,释放CPU核以提升应用性能。可编程网络设备可以包括例如基础设施处理单元(IPU)、数据处理单元(DPU)、智能网络接口卡(SmartNIC)。本文的讨论可能具体地将可编程网络设备提及为IPU,但不旨在将可编程网络设备限制为这种实现方式,并且可以涵盖可编程网络设备的其他实现方式。可编程网络设备(例如,IPU)使得云服务提供商能够以软件的速度定制基础设施功能部署,同时通过允许灵活的工作负载放置来提高数据中心利用率。可编程网络设备能够通过安全地加速数据中心的联网和存储基础设施功能来智能地管理系统级资源。
[0015]具有分解式计算的数据中心能够进一步利用微服务架构来提供加速网络基础设施服务。微服务架构可以将应用布置为松散耦合的微服务集合,这些微服务可以指代使用与技术无关的协议(例如,HTTP或gRPC)通过网络通信以实现目标的进程。在一些情况下,可以使用提供容器化的工作负载和/或服务的容器编排平台来部署微服务。容器编排平台可以利用服务网格来管理微服务之间的大量的基于网络的进程间通信。服务网格是用于微服务的专用软件基础设施层,该层包括使微服务之间的通信能够快速、可靠和安全的元素。服务网格提供以下能力,包括服务发现、负载均衡、加密、可观察性、可跟踪性以及认证和授权。
[0016]在分解式计算环境中,微服务架构的计算集群中的典型工作节点能够同时处理数百个容器工作负载。这些工作节点还可以具有针对计算密集型任务优化的静态附连的专用硬件加速器。(如本文所讨论的,硬件加速器也可以不同地称为硬件加速器设备、硬件加速器资源、加速器资源或加速器。)例如,可以优化一类硬件加速器以高效地运行密码和压缩算法,例如分别是传输层安全(TLS)或zlib。然而,由于资源稀缺,静态硬件加速器资源通常并非对于工作节点上运行的每个工作负载都是可用的。为了以有意义的方式加速计算繁重的操作,硬件加速器资源不能分散得太开,以至于不能确保服务质量(QoS)。
[0017]在相关上下文中,(管理微服务架构的)容器编排平台的控制平面调度器可以将硬件加速器虚拟功能(VF)视为“扩展资源”。给定加速器上可用的VF的数量可能是有限的。例
如,对于密码加速器卡,可能存在三个物理加速器引擎,每个物理加速器引擎开放16个VF,从而得到每个节点有48个可能的扩展可分配资源。微服务架构的容器应用可以请求一个或多个这样的加速器资源,并且在节点的加速器资源耗尽之后,控制平面调度器不会将请求这些加速器资源的工作负载调度给该计算节点(例如,服务器CPU),即使该计算节点有可用的计算资源。这会导致计算节点的利用率不足。
[0018]在一些情况下,容器虽然能够从使用加速器资源中受益,但也能够在没有加速器资源的情况下运行,此时需要权衡例如降低的性能和更高的CPU利用率,或者可以对它获得哪种加速器资源(例如,FPGAvs.GPU vs.ASIC等)不敏感。传统的解决方案无法高效地处理本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种装置,包括:一个或多个处理器,用于:收集与由服务网格管理的服务的微服务之间的通信链路对应的度量;基于对所述度量的分析,确定能够通过卸载到硬件加速器设备来加速所述服务的工作负载;生成用于引起所述硬件加速器设备被分配给为所述服务配置的硬件设备集群的缩放请求;引起所述缩放请求被发送到管理所述硬件加速器设备的可编程网络设备,所述可编程网络设备将所述硬件加速器设备分配给所述集群,并将所述硬件加速器设备注册到所述服务网格;以及将所述服务的工作负载调度给所述硬件加速器设备。2.根据权利要求1所述的装置,其中,所述度量包括遥测数据,所述遥测数据包括新传输层安全性(TLS)连接的数量、每秒传输的字节的数量、微服务之间的业务模式或所述集群的硬件设备的利用率中的至少一个。3.根据权利要求1

2中任一项所述的装置,其中,所述一个或多个处理器识别所述工作负载能够被加速还包括:所述一个或多个处理器注解所述服务,以指示所述服务是在所述硬件加速器设备中调度的候选者,并且其中,所述注解引起所述服务网格的控制平面调度器将所述服务调度给所述硬件加速器设备。4.根据权利要求1

3中任一项所述的装置,其中,所述一个或多个处理器基于对所述度量的分析,确定能够通过卸载到所确定的类型的硬件加速器设备来加速所述工作负载,所确定的类型的硬件加速器设备包括图形处理单元(GPU)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、密码加速器设备、推理加速器设备或压缩加速器设备中的至少一个。5.根据权利要求1

4中任一项所述的装置,其中,所述缩放请求被传递到托管所述一个或多个处理器和所述硬件加速器设备的数据中心的中央资源编排器,所述中央资源编排器管理至少托管所述一个或多个处理器、所述可编程网络设备和所述硬件加速器设备的数据中心中的一组硬件资源。6.根据权利要求1

5中任一项所述的装置,其中,所述一个或多个处理器包括调度器扩展器电路,用于扩展所述服务网格的控制平面调度器的操作,并且其中,所述控制平面调度器将所述服务的工作负载调度在数据中心中的一个或多个可用硬件资源上,所述一个或多个可用硬件资源至少包括所述硬件加速器设备。7.根据权利要求1

6中任一项所述的装置,其中,作为将所述硬件加速器设备分配给所述集群的一部分,所述一个或多个处理器还认证所述硬件加速器设备。8.根据权利要求1

7中任一项所述的装置,其中,所述一个或多个处理器还为所述硬件加速器设备建立共享密钥,以用于所述硬件加速器设备与将工作负载调度给所述硬件加速器设备的所述服务网格的控制平面调度器之间的安全通信。9.根据权利要求1

8中任一项所述的装置,其中,所述一个或多个处理器在可信执行环境(TEE)内执行调度器扩展器以隔离所述调度器扩展器,并且
其中,所述调度器扩展器执行收集、确定、生成和引起。10.根据权利要求1

9中任一项所述的装置,其中,所述一个或多个处理器基于所述硬件加速器设备的过去性能历史、所述硬件加速器设备的环境条件或与所述硬件加速器设备的服务对应的服务水平协议(SLA),识别所述硬件加速器设备。11.根据权利要求1

10中任一项所述的装置,其中,所述一个或多个处理器还与在所述可编程网络设备上执行的集群节点代理通信,所述集群节点代理基于所述缩放请求,在所述集群的一个或多个硬件资源上配置带宽。12.根据权利要求1

11中任一项所述的装置,其中,在托管所述一个或多个处理器、所述可编程网络设备和所述硬件加速器设备的数据中心中,所述可编程网络设备和所述硬件加速器设备与单独的服务器设备中的所述一个或多个处理器是分离的。13.根据权利要求1

12中任一项所述的装置,其中,所述可编程网络设备包括基础设施处理单元(IPU)或数据处理单元(DPU)中的至少一个。14.一种非瞬时性计算机可读存储介质,其上存储有可执行计算机程序指令,所述指令当由一个或多个处理器执行时,引起所述一个或多个处理器执行以下操作,包括:通过所述一个或多个处理器收集与由服务网格管理的服务的微服务之间的通信链路对应的度量;基于对所述度量的分析,确定能够通过卸载到硬件加...

【专利技术属性】
技术研发人员:M
申请(专利权)人:英特尔公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1