基于深度强化学习的仿生机器鱼控制方法、装置及存储介质制造方法及图纸

技术编号：28744839 阅读：22 留言：0更新日期：2021-06-06 17:57

本发明专利技术提供了一种基于深度强化学习的仿生机器鱼控制方法、装置及其存储介质，属于仿生机器人控制技术领域。它解决了现有技术中的缺少针对仿生机器鱼的关节游动控制的基于深度强化学习CPG网络的仿生机器鱼关节运动控制方法等问题。本发明专利技术包括S1：通过深度学习构建外层仿生机器鱼信息网，通过与环境的交互给出初步指令；S2：针对初步指令构建内层CPG网络，通过构建基于中枢模式发生器的运动模型给出具体关节运动指令。本发明专利技术具有能够复杂水下环境中调节仿生鱼等优点。境中调节仿生鱼等优点。境中调节仿生鱼等优点。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度强化学习的仿生机器鱼控制方法、装置及存储介质

[0001]本专利技术属于仿生机器人控制
，特别涉及一种基于深度强化学习的仿生机器鱼控制方法、装置及其存储介质。

技术介绍

[0002]深度强化学习，主要由深度学习(Deep Learning)与强化学习(Reinforcement Learning)两部分组成。深度学习的概念最早源于人工神经网络(Artificial Neural Network，ANN)。其模型通常由多层的非线性运算单元组合而成，并将较低层的输出作为更高一层的输入，从而实现从大量训练数据中学习抽象的特征表示，进而发现数据的分布式特征。深度学习理论能够有效挖掘数据的深层次特征，其一个重要分支图神经网络凭借其特性可以有效地打破传统神经网络对处理图像要求的桎梏，成为了当下最值得重视的研究方向之一。而CPG(中央模式发生器)是一种能够产生节奏活动的协调模式，且无需来自感官反馈或上级控制中心的任何节奏输入的神经网络。由于其良好的性能，基于CPG的控件已被广泛用于生成各种游泳模式，例如向前游泳，向后游泳和转动。尽管已有较多CPG模型方法提出，但该类方法较为简单，很难应对复杂水下环境中，此外该类控制方法的智能化程度较低，当前融合深度强化学习的CPG的仿生机器鱼运动控制研究尚处于起步阶段，缺少针对仿生机器鱼的关节游动控制的基于深度强化学习CPG网络的仿生机器鱼关节运动控制方法，且很多研究缺少明确的具体实施方案。

技术实现思路

[0003]本专利技术的目的是针对现有技术中存在的上述问题，提...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的仿生机器鱼控制方法，其特征在于，包括以下步骤：S1：通过深度学习构建外层仿生机器鱼信息网，通过与环境的交互给出初步指令；S2：针对初步指令构建内层CPG网络，通过构建基于中枢模式发生器的运动模型给出具体关节运动指令。2.根据权利要求1所述的一种基于深度强化学习的仿生机器鱼控制方法，其特征在于：所述的外层仿生机器鱼信息网包含采用协同转换方法处理后的输入信息，所述的输入信息用于生成初步指令的深度强化学习网络以及内层CPG网络传输接口。3.根据权利要求1所述的一种基于深度强化学习的仿生机器鱼控制方法，其特征在于：所述的协同转换方法包括将仿生机器鱼外部传感器采集的连续4帧图像与深度、距离及两种以上数据相关联并标签化，所述的协同转换方法将多元数据打包为可供深度网络直接处理的结构化数据作为后续深度强化学习网络输入。4.根据权利要求1所述的一种基于深度强化学习的仿生机器鱼控制方法，其特征在于：所述的深度强化学习网络采用深度强化Q学习网络构建深度网络，通过所述的深度强化Q学习网络良好的处理机制以及与外部环境的良好交互能力生成仿生机器鱼运动的初步指令，所述的深度网络生成初步指令后输入内层CPG网络接口。5.根据权利要求1所述的一种基于深度强化学习的仿生机器鱼控制方法，其特征在于：所述的深度强化学习网络利用DQN算法构建有深度强化学习框架，将所述的多元数据输入至所述的深度强化学习框架中，所述的深度强化学习框架通过设定目标奖励值生成输入的多元数据的对应Q值，所述的Q值生成公式如式(1)所示：Q
*
(s，a)＝∑p
a
(s，s
′
)(R
a
(s，s
′
)+γmax
a
′
Q
*
(s
′
，a
′
))
ꢀꢀꢀ
(1)其中P
a
(s，s
’
)表示从当前状态s转移到下一状态s
’
的概率，R(s,s')表示当前状态下执行动作后的奖励，为γ衰减系数，maxQ
*
(s
′
，a
′
)表示选择当前最大的Q值操作，通过深度网络生成Q的估计值，并通过Q值和Q估计值的差距来完成深度网络的参数更新，如式(2)：L(θ)＝E((R+γmax
a
′
(s
′
，a
′
，θ)
‑
Q(s，...

【专利技术属性】
技术研发人员：李伟琨，陈浩，崔维成，宋长会，陈林柯，
申请(专利权)人：西湖大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人