System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于自注意力机制强化学习的拓扑图上AGV调度方法技术_技高网

基于自注意力机制强化学习的拓扑图上AGV调度方法技术

技术编号:42396590 阅读:9 留言:0更新日期:2024-08-16 16:19
本发明专利技术属于资源调度技术领域,具体涉及一种基于自注意力机制强化学习的拓扑图上AGV调度方法。该方法包括:构建基于拓扑图的强化学习环境;构建基于自注意力机制的强化学习模型;所述模型由策略网络和价值网络组成;利用基于拓扑图的强化学习环境对经过预训练的模型进行强化学习训练;利用训练好的模型输出AGV调度策略。与传统的AGV调度方法相比,本发明专利技术具有更高的灵活性和适应性,能够处理更复杂的拓扑结构和动态变化的运行环境。该发明专利技术可广泛应用于智能制造、仓储物流等领域,有助于提高企业的生产效率、降低生产成本。

【技术实现步骤摘要】

本专利技术属于资源调度,具体涉及一种基于自注意力机制强化学习的拓扑图上agv调度方法。


技术介绍

1、自动引导车辆(agv)是一种无人驾驶的运输设备,其基础原理主要依赖于精确的导航系统和控制算法。agv通过内置的传感器(如激光扫描仪、rfid标签读取器)来识别环境中的标志、磁条或二维码等导航标记,并根据这些标记来规划其行驶路径。同时,agv还配备了复杂的控制系统,能够根据任务需求自主决策,如选择最佳路径、避让障碍物、进行任务分配等。此外,agv还通过无线通信技术与中央调度系统保持实时连接,接收任务指令、上传运行状态,实现与其他agv或物流系统的协同作业。

2、近年来,随着人工智能、物联网等技术的快速发展,尽管agv技术取得了显著的进步,但仍存在一些关键问题待解决。首先,agv在复杂环境中的感知和决策能力仍有待提高,特别是在面对动态变化的环境和突发情况时。其次,agv之间的协同作业和与人的交互仍然是一个挑战,如何实现高效、安全的协同作业是当前研究的热点之一。因此如何将新兴的深度学习和强化学习算法引入agv调度方法中收到了越来越多研究人员的关注。

3、自注意力机制是深度学习中一种允许模型在处理序列中的每个位置时都能考虑整个序列信息的机制。基于自注意力机制的特点和能力,可以有效处理不同数量和类型agv的调度问题。强化学习算法是一种近年来受到广泛关注的机器学习方法,其核心思想是通过智能体与环境的交互,学习从试错中找到最优策略。目前,还没有将深度学习和强化学习算法引入agv调度方法中的相关报道。


<p>技术实现思路

1、本专利技术的目的是基于现有技术中存在的问题,将深度学习和强化学习算法引入agv调度方法中,提出一种基于自注意力机制强化学习的拓扑图上agv调度方法,该方法能够在以拓扑图表示的地图上,同时解决路径规划和冲突避免问题。该方法基于自注意力机制模型,通过强化学习,使智能体能综合路径信息和碰撞信息,在拓扑图上选择最优的路线,并保证agv之间的安全距离和优先级。该方法能够有效地解决agv在动态环境中的路径规划和冲突避免问题,具有高效、稳定、可扩展等优点,适用于各种规模和复杂度的agv系统。

2、本专利技术采用的技术方案是:基于自注意力机制强化学习的拓扑图上agv调度方法,包括:构建基于拓扑图的强化学习环境:

3、构建基于自注意力机制的强化学习模型;所述模型由策略网络和价值网络组成;

4、利用基于拓扑图的强化学习环境对经过预训练的模型进行强化学习训练;

5、利用训练好的模型输出agv调度策略;

6、其中,所述基于拓扑图的强化学习环境具体为:

7、;

8、其中,为构建的强化学习环境;代表地图信息;代表agv信息;中包含agv的状态集合为,;动作集合为,;状态表示在时间步时agv的位置及状态信息,动作表示在时间步时agv所选取的动作;

9、采用奖励函数,根据agv所采取的动作及当前状态,计算其导致的新状态的即时奖励。

10、优选地,所述基于拓扑图的强化学习环境通过以下方法构建:

11、(1)构建地图索引:地图索引是将地图以直角坐标系x坐标与y坐标划分为等大小矩形的网格,记为,其中每个单元格对应着一定范围x 和y坐标区域;地图索引采用映射函数表示: ;

12、其中,是站点集合,是道路集合;

13、(2)构建地图拓扑图数据结构:以地图信息构造有向图,将站点构造为环形岛结构以记录站点各个道路间的方向距离;通过实时线速度与距离,实时角速度与方向距离,计算avg通过道路与站点的时间消耗;

14、(3)构建强化学习环境:基于stable baselines 3架构,与模拟平台或调度平台实时通讯以维护当前环境信息的更新,并向强化学习提供状态接口、价值反馈计算、接收强化学习预测的动作并执行。

15、优选地,在强化学习环境中以拓扑图描述强化学习的状态集和动作集,其中状态集包括地图信息、agv位置信息、agv目标信息,具体为:

16、(1)存储地图信息为邻接矩阵:设地图共有个站点,对应的大小的邻接矩阵表示为:

17、;

18、如果站点与站点之间存在连通关系,,否则;

19、(2)构造agv位置信息矩阵:agv位置信息矩阵定义为大小为的0/1矩阵,表示为:

20、;

21、当agv位于站点时,,其余元素均为0;

22、(3)构造agv目标信息矩阵:agv目标信息矩阵定义为大小为的0/1矩阵,表示为:

23、;

24、若agv位于站点并且其目标站点为,则,表示位于站点的agv的目标是站点,并且目标信息矩阵的结构与位置信息矩阵相对应;

25、(4)设定以概率表示的动作矩阵:表示为一个大小为的概率矩阵,其中每个元素表示当agv位于站点时,它下一步移动至站点的概率;矩阵中的每一列代表了一个起点的所有可能终点的概率分布:

26、;

27、对于agv每个当前所在站点,有:

28、;

29、对于任意站点,矩阵的第列中,概率最高的元素所对应的行索引表示agv下一步最有可能移动到的站点。

30、优选地,所述的奖励函数表示为:

31、;

32、其中,是一个指示变量,如果agv还未完成任务,则为1,否则为0,用来计算懈怠惩罚;表示是否死锁,如果agv处于死锁状态,则为1,否则为0,用来计算死锁惩罚;表示是否碰撞,如果agv发生或即将发生碰撞,则为1,否则为0,用来计算碰撞惩罚;为导航成功的奖励系数;为碰撞惩罚系数;为倒车距离,为倒车惩罚系数;为旋转角度,为转弯惩罚系数;为时间步,表示消耗时间,为懈怠惩罚系数,为死锁惩罚系数;为本次距目标距离与上次距目标距离的差值,为距离奖励系数。

33、优选地,使用监督学习以状态集作为输入,动作集作为输出,选取真实地图数据,随机生成agv位置与目标,并通过启发式算法计算agv下一步的位置作为标签数据,以对模型进行监督学习预训练。

34、优选地,在基于拓扑图的强化学习环境中,使用策略网络选择动作,执行动作,观察奖励,并更新价值网络的函数值;使用优势动作评论算法计算优势作为引导信号,用于更新策略网络和价值网络的参数;通过多次迭代,优化网络参数。

35、优选地,将预训练的模型使用自注意力机制进行强化学习训练,具体包括:(1)输入预处理:初始输入数据通过单层的多层感知机(mlp)进行预处理;预处理后的数据被送入编码器模块;

36、(2)编码器处理:编码器对预处理后的输入数据进行进一步处理,处理后的数据将作为自注意力机制的基础;

37、(3)自注意力机制:应用自注意力机制以考虑不同时间步长之间的依赖关系;采用softmax函数计算每个时间步长的权重,该权重用于后续的路径规划决策;

38、(4)输出决本文档来自技高网...

【技术保护点】

1.基于自注意力机制强化学习的拓扑图上AGV调度方法,其特征在于,包括:

2.根据权利要求1所述的基于自注意力机制强化学习的拓扑图上AGV调度方法,其特征在于,所述基于拓扑图的强化学习环境通过以下方法构建:

3.根据权利要求1所述的基于自注意力机制强化学习的拓扑图上AGV调度方法,其特征在于,在强化学习环境中以拓扑图描述强化学习的状态集和动作集,其中状态集包括地图信息、AGV位置信息、AGV目标信息,具体为:

4.根据权利要求1所述的基于自注意力机制强化学习的拓扑图上AGV调度方法,其特征在于,所述的奖励函数表示为:

5.根据权利要求3所述的基于自注意力机制强化学习的拓扑图上AGV调度方法,其特征在于:使用监督学习以状态集作为输入,动作集作为输出,选取真实地图数据,随机生成AGV位置与目标,并通过启发式算法计算AGV下一步的位置作为标签数据,以对模型进行监督学习预训练。

6.根据权利要求5所述的基于自注意力机制强化学习的拓扑图上AGV调度方法,其特征在于:在基于拓扑图的强化学习环境中,使用策略网络选择动作,执行动作,观察奖励,并更新价值网络的函数值;使用优势动作评论算法计算优势作为引导信号,用于更新策略网络和价值网络的参数;通过多次迭代,优化网络参数。

7.根据权利要求6所述的基于自注意力机制强化学习的拓扑图上AGV调度方法,其特征在于:将预训练的模型使用自注意力机制进行强化学习训练,具体包括:(1)输入预处理:初始输入数据通过单层的多层感知机进行预处理;预处理后的数据被送入编码器模块;

...

【技术特征摘要】

1.基于自注意力机制强化学习的拓扑图上agv调度方法,其特征在于,包括:

2.根据权利要求1所述的基于自注意力机制强化学习的拓扑图上agv调度方法,其特征在于,所述基于拓扑图的强化学习环境通过以下方法构建:

3.根据权利要求1所述的基于自注意力机制强化学习的拓扑图上agv调度方法,其特征在于,在强化学习环境中以拓扑图描述强化学习的状态集和动作集,其中状态集包括地图信息、agv位置信息、agv目标信息,具体为:

4.根据权利要求1所述的基于自注意力机制强化学习的拓扑图上agv调度方法,其特征在于,所述的奖励函数表示为:

5.根据权利要求3所述的基于自注意力机制强化学习的拓扑图上agv调度方法,其特征在于:使用监督学习以状态集作为输入,动...

【专利技术属性】
技术研发人员:马汝东郑艳伟张东升李丰国李泽昊徐臻刘增杰张芮睿于东晓孙雯淑
申请(专利权)人:歌尔股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1