一种自动驾驶车辆算力网络边缘计算的资源协同配置方法技术

技术编号：42304975 阅读：4 留言：0更新日期：2024-08-14 15:51

本发明专利技术提供了一种自动驾驶车辆算力网络边缘计算的资源协同配置方法，包括以下步骤：以最小化自动驾驶车辆任务执行时延与执行能耗的加权和为目标函数，构建多智能体；基于多智能体训练TD3网络；将多智能体的当前状态量输入至训练完成的TD3网络，执行TD3网络输出的多智能体的动作策略。本发明专利技术解决了车辆移动性导致的传输速率低、服务质量差、任务派发时选择最佳服务器以及车联网网络对低时延、低功耗的需求。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于自动驾驶车辆，具体涉及一种自动驾驶车辆算力网络边缘计算的资源协同配置方法。

技术介绍

1、近年来，自动驾驶和第五代(5g)通信的崛起推动了车联网(iov)和机器学习(ml)领域的发展。自动驾驶引发了对车辆网络中任务、计算和无线通信的兴趣，大多数应用是计算密集任务，需要大量计算资源且对延迟敏感。然而，车辆的有限车载资源难以满足服务需求，从而影响了车联网服务质量。

2、自动驾驶汽车的背后是复杂而强大的算法和系统，它们依赖于大量的算力资源以及高效的网络连接。大量终端接入带来了海量数据和数据任务派发的需求，对算力和网络提出了更高要求。算网融合是基于无处不在的网络，将分布在各处的计算资源相互连接，通过统一协同调度实现全局优化，以满足自动驾驶应用的实时性需求。在面向算网融合的车联网场景可以有效缓解网络和计算资源不够带来的压力。

3、同时为促进车联网(v2x)发展，深度学习和多智能体强化学习(rl)等机器学习技术被广泛的应用在v2x中。机器学习在网络边缘分布，节点通过本地数据和分布式处理器协作训练大规模模型，实现了从机器人到虚拟现实再到车联网更快、更便宜和更安全的操作。目前关于车载边缘计算中基于深度强化学习的资源调度策略的工作更关注于利用空中服务提供商辅助通信，提供车辆协同感知。同时，考虑到资源协同配置问题，有工作设计了奖励机制，通过与环境互动实现负载均衡，提高系统能效。但由于空中服务提供商电池容量限制，低功耗成为影响空中服务提供商辅助车载边缘计算服务质量的关键因素。此外，由于车辆移动性，车辆与服务器之间

4、当车辆用户产生任务派发请求时，由于车辆的移动性，车载边缘计算中车辆与边缘服务器之间的距离与通信链路将发生动态变化，从而导致传输速率低、服务质量差等问题。

5、当车辆同时被多个服务提供商覆盖或者离开当前服务提供商移动到相邻服务提供商，为车辆用户选择最佳的边缘服务器进行任务派发是一个亟待解决的问题。

6、所以如何设计算网融合框架，以统一协同的调动网络和算力资源来实现全局优化，是现有技术亟待解决的技术问题。

技术实现思路

1、本专利技术的目的就是为了解决上述
技术介绍
存在的不足，提供一种自动驾驶车辆算力网络边缘计算的资源协同配置方法，提出基于深度强化学习的空中服务提供商辅助车载边缘计算资源协同分配策略，联合优化了用户关联、车辆发射功率和带宽分配，降低系统能耗和任务服务时延，解决了车辆移动性导致的传输速率低、服务质量差、任务派发时选择最佳服务器以及车联网网络对低时延、低功耗的需求。

2、本专利技术采用的技术方案是：一种自动驾驶车辆算力网络边缘计算的资源协同配置方法，所述算力网络包括自动驾驶车辆、基站和云端服务器；所述基站包括空中基站和地面基站；

3、所述资源协同配置方法包括以下步骤：

4、以最小化自动驾驶车辆任务执行时延与执行能耗的加权和为目标函数，构建多智能体；

5、其中，多智能体的状态量包括自动驾驶车辆的计算任务大小和位置、基站可分配给自动驾驶车辆的剩余总带宽；

6、多智能体的动作包括自动驾驶车辆是否选择任一基站处理任务、基站分配给自动驾驶车辆的带宽、自动驾驶车辆的发射功率；

7、多智能体的奖励表征自动驾驶车辆的任务执行成本和任务完成时间超出了任务最大容忍时延的惩罚；

8、基于多智能体训练td3网络；

9、将多智能体的当前状态量输入至训练完成的td3网络，执行td3网络输出的多智能体的动作策略。

10、上述技术方案中，所述目标函数的表达式为：

11、

12、

13、s.t

14、

15、

16、

17、

18、

19、

20、

21、

22、其中，λ1和λ2分别表示执行任务的时延权重和能耗权重，evn(t)表示自动驾驶车辆v在时隙t完成计算任务所需的系统能耗；bvn(t)表示在时隙t自动驾驶车辆v是否选择基站n处理任务或者请求的二进制变量；tvn(t)表示在时隙t自动驾驶车辆v的任务完成延迟；t表示时隙集合，n表示基站集合，v表示自动驾驶车辆的集合；v∈v,n∈n,t∈t；

23、u表示空中基站的集合，m表示地面基站的集合，基站集合记为n＝{1,,u,u+1,,u+m}；表示空中基站u在时隙t分配给自动驾驶车辆v的带宽；表示地面基站m在时隙t分配给自动驾驶车v的带宽；bvu(t)表示在时隙t自动驾驶车辆v是否选择空中基站u处理任务或者请求的二进制变量；bvm(t)表示在时隙t自动驾驶车辆v是否选择地面基站m处理任务或者请求的二进制变量；wu表示空中基站的最大带宽资源；wm表示地面基站的最大带宽资源；fv(t)表示自动驾驶车辆v在时隙t的发射功率；fmin表示车辆向空中基站或地面基站传输信息的最小发射功率，fmax表示车辆向空中基站或地面基站传输信息的最大发射功率。任务最大容忍时延tmax；车辆的任务完成延迟；基站分配给车辆v的带宽应该大于等于其最小带宽wmin；vnn表示每个基站在每个时隙中可以服务的车辆最大数量。

24、上述技术方案中，所述多智能体定义为五元组<s,a,p,r,α>；

25、多智能体的状态空间s(t)定义为：

26、

27、

28、其中，udv(t)表示自动驾驶车辆v在时隙t产生的计算任务大小，lov(t)表示自动驾驶车辆v在时隙t的位置，表示在时隙t基站n可分配给自动驾驶车辆v的剩余总带宽；

29、

30、表示基站n在时隙t分配给自动驾驶车辆v的带宽；wn表示基站n的总带宽；

31、智能体的动作空间a(t)定义为：

32、

33、

34、bvn(t)表示在时隙t自动驾驶车辆v是否选择基站n处理任务或者请求的二进制；

35、变量智能体的奖励rv(t)定义为：

36、

37、其中，cv(t)为自动驾驶车辆v在时隙t的任务执行成本，成本越小则奖励越大；ψv(t)表示自动驾驶车辆v在时隙t任务完成时间超出了任务最大容忍时延的惩罚；如果任务在最大截止时间之前完成，则ψv(t)＝0，不会对奖励函数造成影响.否则相应的ψv(t)将为正值并不断增加；

38、在时隙t，所有智能体的总奖励r(t)可定义为：

39、

40、上述技术方案中，所述td3网络包括一个actor网络和两个critic网络，每个actor网络和critic网络又包含对应的目标网络。

41、上述技术方案中，td3网络训练过程中的经验缓冲池包括2个：一个经验缓冲池存放优先级较高的样本，另一个存放优先级较低的样本；td3网络训练过程中从两个经验回放池本文档来自技高网...

【技术保护点】

1.一种自动驾驶车辆算力网络边缘计算的资源协同配置方法，其特征在于：所述算力网络包括自动驾驶车辆、基站和云端服务器；所述基站包括空中基站和地面基站；

2.根据权利要求1所述的方法，其特征在于：所述目标函数的表达式为：

3.根据权利要求2所述的方法，其特征在于：所述多智能体定义为五元组<S,A,P,R,α>；

4.根据权利要求2所述的方法，其特征在于：所述TD3网络包括一个Actor网络和两个Critic网络，每个Actor网络和Critic网络又包含对应的目标网络。

5.根据权利要求3所述的方法，其特征在于：TD3网络训练过程中的经验缓冲池包括2个：一个经验缓冲池存放优先级较高的样本，另一个存放优先级较低的样本；TD3网络训练过程中从两个经验回放池中按照比重分别随机采样设定数量的数据；存放优先级较高样本的缓冲池所抽取的样本数量大于存放优先级较低的样本的缓冲池取。

6.根据权利要求5所述的方法，其特征在于：每次产生经验样本后，先计算两个经验缓冲池中所有样本优先级的平均值；如果当前经验样本高于平均值，则将新产生的

7.根据权利要求5所述的方法，其特征在于：TD3网络的训练过程包括：

8.一种自动驾驶车辆算力网络，其特征在于：自动驾驶车辆作为算力网络的应用层；

...

【技术特征摘要】

2.根据权利要求1所述的方法，其特征在于：所述目标函数的表达式为：

3.根据权利要求2所述的方法，其特征在于：所述多智能体定义为五元组<s,a,p,r,α>；

4.根据权利要求2所述的方法，其特征在于：所述td3网络包括一个actor网络和两个critic网络，每个actor网络和critic网络又包含对应的目标网络。

5.根据权利要求3所述的方法，其特征在于：td3网络训练过程中的经验缓冲池包括2个：一...

【专利技术属性】
技术研发人员：李春林，吴建阳，刘森，张帅，
申请(专利权)人：武汉理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人