当前位置: 首页 > 专利查询>西湖大学专利>正文

基于深度强化学习的仿生机器鱼控制方法、装置及存储介质制造方法及图纸

技术编号:28744839 阅读:22 留言:0更新日期:2021-06-06 17:57
本发明专利技术提供了一种基于深度强化学习的仿生机器鱼控制方法、装置及其存储介质,属于仿生机器人控制技术领域。它解决了现有技术中的缺少针对仿生机器鱼的关节游动控制的基于深度强化学习CPG网络的仿生机器鱼关节运动控制方法等问题。本发明专利技术包括S1:通过深度学习构建外层仿生机器鱼信息网,通过与环境的交互给出初步指令;S2:针对初步指令构建内层CPG网络,通过构建基于中枢模式发生器的运动模型给出具体关节运动指令。本发明专利技术具有能够复杂水下环境中调节仿生鱼等优点。境中调节仿生鱼等优点。境中调节仿生鱼等优点。

【技术实现步骤摘要】
基于深度强化学习的仿生机器鱼控制方法、装置及存储介质


[0001]本专利技术属于仿生机器人控制
,特别涉及一种基于深度强化学习的仿生机器鱼控制方法、装置及其存储介质。

技术介绍

[0002]深度强化学习,主要由深度学习(Deep Learning)与强化学习(Reinforcement Learning)两部分组成。深度学习的概念最早源于人工神经网络(Artificial Neural Network,ANN)。其模型通常由多层的非线性运算单元组合而成,并将较低层的输出作为更高一层的输入,从而实现从大量训练数据中学习抽象的特征表示,进而发现数据的分布式特征。深度学习理论能够有效挖掘数据的深层次特征,其一个重要分支图神经网络凭借其特性可以有效地打破传统神经网络对处理图像要求的桎梏,成为了当下最值得重视的研究方向之一。而CPG(中央模式发生器)是一种能够产生节奏活动的协调模式,且无需来自感官反馈或上级控制中心的任何节奏输入的神经网络。由于其良好的性能,基于CPG的控件已被广泛用于生成各种游泳模式,例如向前游泳,向后游泳和转动。尽管已有较多CPG模型方法提出,但该类方法较为简单,很难应对复杂水下环境中,此外该类控制方法的智能化程度较低,当前融合深度强化学习的CPG的仿生机器鱼运动控制研究尚处于起步阶段,缺少针对仿生机器鱼的关节游动控制的基于深度强化学习CPG网络的仿生机器鱼关节运动控制方法,且很多研究缺少明确的具体实施方案。

技术实现思路

[0003]本专利技术的目的是针对现有技术中存在的上述问题,提供了一种基于深度强化学习的仿生机器鱼控制方法、装置及其存储介质。
[0004]本专利技术的第一个目的可通过下列技术方案来实现:一种基于深度强化学习的仿生机器鱼控制方法,其特征在于,包括以下步骤:
[0005]S1:通过深度学习构建外层仿生机器鱼信息网,通过与环境的交互给出初步指令;
[0006]S2:针对初步指令构建内层CPG网络,通过构建基于中枢模式发生器的运动模型给出具体关节运动指令;
[0007]本专利技术的工作原理:本专利技术对在复杂水下环境具有多关节或多自由度的仿生机器鱼关节运动控制有良好的适用性,本专利技术的方法结深度强化学习网络,提出了融合外层仿生机器鱼信息网与内层CPG网络模型相的仿生机器鱼关节运动共控制方法,利用该方法能够实现仿生机器鱼的智能化自主高效游动控制。
[0008]在上述的一种基于深度强化学习的仿生机器鱼控制方法中,所述的外层仿生机器鱼信息网包含采用协同转换方法处理后的输入信息,所述的输入信息用于生成初步指令的深度强化学习网络以及内层CPG网络传输接口。
[0009]在上述的一种基于深度强化学习的仿生机器鱼控制方法中,所述的协同转换方法包括将仿生机器鱼外部传感器采集的连续4帧图像与深度、距离及两种以上数据相关联并
标签化,所述的协同转换方法将多元数据打包为可供深度网络直接处理的结构化数据作为后续深度强化学习网络输入。
[0010]在上述的一种基于深度强化学习的仿生机器鱼控制方法中,所述的深度强化学习网络采用深度强化Q学习网络构建深度网络,通过所述的深度强化Q学习网络良好的处理机制以及与外部环境的良好交互能力生成仿生机器鱼运动的初步指令,所述的深度网络生成初步指令后输入内层CPG网络接口。
[0011]在上述的一种基于深度强化学习的仿生机器鱼控制方法中,所述的深度强化学习网络利用DQN算法构建有深度强化学习框架,将所述的多元数据输入至所述的深度强化学习框架中,所述的深度强化学习框架通过设定目标奖励值生成输入的多元数据的对应Q值,所述的Q值生成公式如式(1)所示:
[0012][0013]其中P
a
(s,s

)表示从当前状态s转移到下一状态s

的概率,R(s,s')表示当前状态下执行动作后的奖励,为γ衰减系数,maxQ
*
(s

,a

)表示选择当前最大的Q值操作,通过深度网络生成Q的估计值,并通过Q值和Q估计值的差距来完成深度网络的参数更新,如式(2):
[0014][0015]其中L(θ)表示损失函数,E表示取期望操作。
[0016]在上述的一种基于深度强化学习的仿生机器鱼控制方法中,所述的内层CPG网络接口能够将所述的初步指令转化并将所述的初步指令传入内层CPG网络实现仿生机器鱼的具体关节运动,所述的仿生机器鱼的具体关节运动模型的生成式如式(3):
[0017][0018]其中t为方向控制参数,θ为神经元间相位差,表示第i个神经元的不同相位,ε
i
,ω表示神经元的振幅与频率,此外,P
u
,P
v
为扰动项,其中P
v
=c2u
i+1
sinθ+c1u
i+1
cosθ,P
u
=c1u
i
‑1cosθ

c2v
i
‑1sinθ,c1,c2为神经元耦合系数,完成CPG模型构建后,将相位输出转化后输入到仿生机器鱼的各关节,如式(4):
[0019]Γ
i
=ζ
i
v
i

i
ꢀꢀꢀ
(4)
[0020]其中Γ
i
表示第i个关节的输入,ζ
i
为关节对应转化系数,由对应的电机决定,Θ
i
为上层网络生成的初步指令系数,最终通过外层深度强化学习网络与内层CPG网络协同合作完成仿生机器鱼在复杂环境中的交互与智能化高效游动控制。
[0021]在上述的一种基于深度强化学习的仿生机器鱼控制方法中,所述的内层CPG网络接口包含初步指令的分解、标定与传输机制。
[0022]在上述的一种基于深度强化学习的仿生机器鱼控制方法中,所述的内层CPG网络包括基于中枢模式发生器的运动模型以及具体关节运动指令转化传输机制。
[0023]本专利技术的第二个目的可通过下列技术方案来实现:一种基于深度强化学习CPG网络的仿生机器鱼关节运动控制装置,包括:
[0024]计算机端;
[0025]控制器;
[0026]一个或多个处理器;
[0027]存储器;
[0028]以及一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述的程序包括用于执行如上述的一种基于深度强化学习CPG网络的仿生机器鱼关节运动控制方法。
[0029]本专利技术的第三个目的可通过下列技术方案来实现:一种存储介质,存储有与计算机端、显示器结合使用的计算机程序,所述的计算机程序可被处理器执行完成如上述的一种基于深度强化学习CPG网络的仿生机器鱼关节运动控制方法。
[0030]与现有技术相比,本专利技术具有能够在复杂水下环境中调节仿生鱼,调节灵敏等优点。
附本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的仿生机器鱼控制方法,其特征在于,包括以下步骤:S1:通过深度学习构建外层仿生机器鱼信息网,通过与环境的交互给出初步指令;S2:针对初步指令构建内层CPG网络,通过构建基于中枢模式发生器的运动模型给出具体关节运动指令。2.根据权利要求1所述的一种基于深度强化学习的仿生机器鱼控制方法,其特征在于:所述的外层仿生机器鱼信息网包含采用协同转换方法处理后的输入信息,所述的输入信息用于生成初步指令的深度强化学习网络以及内层CPG网络传输接口。3.根据权利要求1所述的一种基于深度强化学习的仿生机器鱼控制方法,其特征在于:所述的协同转换方法包括将仿生机器鱼外部传感器采集的连续4帧图像与深度、距离及两种以上数据相关联并标签化,所述的协同转换方法将多元数据打包为可供深度网络直接处理的结构化数据作为后续深度强化学习网络输入。4.根据权利要求1所述的一种基于深度强化学习的仿生机器鱼控制方法,其特征在于:所述的深度强化学习网络采用深度强化Q学习网络构建深度网络,通过所述的深度强化Q学习网络良好的处理机制以及与外部环境的良好交互能力生成仿生机器鱼运动的初步指令,所述的深度网络生成初步指令后输入内层CPG网络接口。5.根据权利要求1所述的一种基于深度强化学习的仿生机器鱼控制方法,其特征在于:所述的深度强化学习网络利用DQN算法构建有深度强化学习框架,将所述的多元数据输入至所述的深度强化学习框架中,所述的深度强化学习框架通过设定目标奖励值生成输入的多元数据的对应Q值,所述的Q值生成公式如式(1)所示:Q
*
(s,a)=∑p
a
(s,s

)(R
a
(s,s

)+γmax
a

Q
*
(s

,a

))
ꢀꢀꢀ
(1)其中P
a
(s,s

)表示从当前状态s转移到下一状态s

的概率,R(s,s')表示当前状态下执行动作后的奖励,为γ衰减系数,maxQ
*
(s

,a

)表示选择当前最大的Q值操作,通过深度网络生成Q的估计值,并通过Q值和Q估计值的差距来完成深度网络的参数更新,如式(2):L(θ)=E((R+γmax
a

(s

,a

,θ)

Q(s,...

【专利技术属性】
技术研发人员:李伟琨陈浩崔维成宋长会陈林柯
申请(专利权)人:西湖大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1