System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及通信资源优化领域,尤其涉及一种面向公共交通的车联网资源调度方法与系统。
技术介绍
1、随着新一轮技术革命和产业变革的蓬勃发展,汽车与人工智能、通讯网络、大模型等技术深度融合,智能化、网联化成为产业发展的重要方向。物联网和无线通信技术的飞速发展也在不断推动传统车辆向车联网转变。现有某产业为了提升公交车的乘车体验,计划在部分公交车上试点将刷卡设备改造成公共wi-fi,乘客可以通过手机app进行刷卡,并接入免费车载wi-fi。为此,需要实现公交车高度个性化的信息服务,通过精准分析乘客的出行习惯、偏好和实时位置,能够在不同的公交车上推送差异化、高流行度和高兴趣度的内容,实现信息服务的个性化推荐,最终提升乘客的满意度和产业效益。具体实现为:结合联邦学习,在公交车上搭载无线wi-fi,公交车使用无线wi-fi热点覆盖和管理系统获取乘客的信息浏览数据,路侧单元(rsus,roadsideunits)作为中间处理器接收乘客数据并将其整理传输到中心服务器,中心服务器进行数据处理后将结果下发,做到不同公交车之间有所差异、流行度高、兴趣度高的内容推送,做到信息的个性化推荐,提升乘客公交网络使用体验感。
2、公交车作为一个动态移动的环境,现有的推荐系统未能适应实时性要求高的动态移动环境,做到动态调整推荐内容。在移动环境中,数据传输的时延和不稳定性会严重影响服务的响应速度和准确性。不同公交车会出现不同具有不同的计算和存储能力,设备老旧的公交车或客流量过大导致的计算数据量过大,都会造成了严重的设备异构性。若车联网系统要给乘客带来良
技术实现思路
1、有鉴于此,为了解决现有个性化推荐方法中没有考虑设备异构的情况,存在通信资源分配优化不足的缺陷,进而导致推荐系统运行缓慢的技术问题,本专利技术提出一种面向公共交通的车联网资源调度方法,所述方法包括以下步骤:
2、以rsu作为领导者,公交车作为追随者,构建stackelberg博弈模型;
3、基于所述stackelberg博弈模型,融合malppo多智能体深度强化学习,输出最优资源分配策略。
4、在一些实施例中,所述stackelberg博弈模型设有如下两个阶段:
5、第一阶段,rsu选择宽带定价策略;
6、第二阶段,公交车观察rsu选择的策略,并根据自身需求做出相应的响应。
7、在一些实施例中,在第二阶段中,公交车的效用函数为:
8、
9、其中,表示第i个公交车对第j个rsu的效用函数,表示第i个公交车对第j个rsu的满意水平,表示作为乘客的qoe定量度量,表示第j个rsu对第i个公交车的贷款定价,表示第i个公交车对第j个rsu的带宽量需求,表示第j个rsu向第i个公交车传输的信噪比,表示第j个rsu向第i个公交车传输数据的频谱效率,di表示第i个公交车中个性化联邦推荐系统模型的任务量,表示第j个rsu向第i个公交车传输前的数据处理质量,表示第i个公交车将个性化联邦推荐系统模型卸载到rsu后,对rsu支持的模型服务质量的最低要求下限。
10、在一些实施例中,在第一阶段中,rsu的效用函数为:
11、
12、其中,vj表示第j个rsu的效用函数,cj表示第j个rus的带宽成本,i表示公交车的集合。
13、在一些实施例中,在所述stackelberg博弈模型中,存在如下限定:
14、第二阶段:
15、公交车在第二阶段通过考虑rus发布的带宽价格策略向量确定其效用最大化的最优带宽购买策略;
16、第一阶段:
17、rsu之间的非合作博弈存在一个纳什均衡;
18、rsu与公交车之间的多领导多随从stackelberg博弈存在stackelberg均衡;
19、rsu和公交车之间的stackelberg均衡是唯一的。
20、在一些实施例中,所述基于所述stackelberg博弈模型,融合malppo多智能体深度强化学习,输出最优资源分配策略这一步骤,其具体包括:
21、定义状态空间、动作空间和奖励函数;
22、在每一时间步,rsu基于当前状态来决策出动作,环境对应给出奖励;
23、将状态、动作和奖励放入缓存池,并结合更新策略函数、价值函数和损失函数更新actor网络和critic网络;
24、从缓冲队列中提取与rsu相关的信息,生成新的状态,并进入下一个时间步;
25、迭代直至达到仿真结果拟合且接近理论博弈均衡解,输出最优资源分配策略。
26、本专利技术还提出了一种面向公共交通的车联网资源调度系统,包括:
27、博弈模型构建模块,用于以rsu作为领导者,公交车作为追随者,构建stackelberg博弈模型;
28、多智能体强化学习模块,基于所述stackelberg博弈模型,融合malppo多智能体深度强化学习,输出最优资源分配策略。
29、基于上述方案,本专利技术提供了一种面向公共交通的车联网资源调度方法及系统,首先次,针对实际公交车利用资源的问题,建立stackelberg博弈模型,公交车根据的策略进行相应调整,最优化带宽分配,获取到合适的资源,使通信系统更好适应不断变化的通信环境和需求,提高系统应对复杂的现实公交状况,提升乘客的乘车体验;其次,融合stackelberg博弈模型与malppo多智能体深度强化学习,stackelberg博弈模型提供了对多智能体系统中公交车和之间互相影响的建模,利用深度学习技术训练智能体以学习最优资源分配策略,malppo多智能体深度强化学习实现rsu之间的协作和竞争,从而更好的优化资源分配。
本文档来自技高网...【技术保护点】
1.一种面向公共交通的车联网资源调度方法,其特征在于,包括以下步骤:
2.根据权利要求1所述一种面向公共交通的车联网资源调度方法,其特征在于,所述Stackelberg博弈模型设有如下两个阶段:
3.根据权利要求2所述一种面向公共交通的车联网资源调度方法,其特征在于,在第二阶段中,公交车的效用函数为:
4.根据权利要求3所述一种面向公共交通的车联网资源调度方法,其特征在于,在第一阶段中,RSU的效用函数为:
5.根据权利要求4所述一种面向公共交通的车联网资源调度方法,其特征在于,在所述Stackelberg博弈模型中,存在如下限定:
6.根据权利要求5所述一种面向公共交通的车联网资源调度方法,其特征在于,所述基于所述Stackelberg博弈模型,融合MALPPO多智能体深度强化学习,输出最优资源分配策略这一步骤,其具体包括:
7.一种面向公共交通的车联网资源调度系统,其特征在于,包括:
【技术特征摘要】
1.一种面向公共交通的车联网资源调度方法,其特征在于,包括以下步骤:
2.根据权利要求1所述一种面向公共交通的车联网资源调度方法,其特征在于,所述stackelberg博弈模型设有如下两个阶段:
3.根据权利要求2所述一种面向公共交通的车联网资源调度方法,其特征在于,在第二阶段中,公交车的效用函数为:
4.根据权利要求3所述一种面向公共交通的车联网资源调度方法,其特征在于,在第一阶段中,rsu的效...
【专利技术属性】
技术研发人员:魏钰祥,饶博勋,曾焯淇,伍尚鸿,李丽椰,杨超,
申请(专利权)人:广东工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。