System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及机械臂控制,尤其涉及一种基于行为克隆的机械臂连续轨迹跟踪控制系统。
技术介绍
1、近几年随着智能制造的火热,机器人系统发展迅速并且已经广泛应用到光伏、汽车等多个行业中。机器人路径规划和轨迹跟踪是机器人自动化和智能化的关键技术之一,目前关于机械臂控制的研究已经取得了很多成果。随着控制复杂性的增加,机器人的不确定性和系统干扰也应该在控制设计中得到特别关注。
2、值得注意的是,机器人的动态模型,尤其是在复杂的工业应用中,往往是时变的或不确定的。为了适应这种不确定性,近年来神经网络被广泛应用于解决不确定的非线性动态机器人系统的控制设计问题。
3、中国专利公开号:cn116512233b,公开了一种机械臂及机械臂的控制系统,其通过第一电机的设置,可以使装置进行转动,通过转动板、伸缩杆和第一圆形套筒的设置,可以使安装柱在转动的同时,还可以进行升降,一种机械臂及机械臂的控制系统,包括底座,还包括第一电机,底座的顶端固定连接有支撑柱,支撑柱的顶端开设有安装槽,安装槽内滑动连接有安装柱,第一电机的输出端固定连接在安装柱的底端,支撑柱的顶端开设有转动槽,转动槽内转动连接有转动板,转动板的顶端固定连接有多个第一圆形套筒,多个第一圆形套筒内均滑动连接有伸缩杆,伸缩杆的顶端固定连接有固定环;由此可见,上述技术方案存在以下问题:在面对具有强随机干扰以及多变的环境下,不具备抗干扰能力,影响了机械臂的运行精准度。
技术实现思路
1、为此,本专利技术提供一种基于行为克隆的机械臂
2、为实现上述目的,本专利技术提供一种基于行为克隆的机械臂连续轨迹跟踪控制系统,包括:
3、机械臂特征表达模块,其用以通过动态方程对机械臂建模;
4、比例智能体模块,其用以通过非在线actor-critic drl算法确定输出目标动作;
5、行为克隆模块,其用以基于误差公式确定actor-critic drl算法输出的目标动作与专家经验展示的loss值;
6、多智能体模块,其包括用以输出pid控制参数pid智能体和用以输出控制力矩的ddr智能体,两个智能体控制同一个机械臂;
7、pid控制模块,其用以基于多智能体模块输出的pid参数输出力矩以控制机械臂,使机械臂跟踪不同于训练轨迹的其他轨迹;
8、奖励确定模块,其用以通过各智能体的对应奖励函数确定对应智能体的奖励值;
9、更新模块,其用以控制各智能体更新。
10、进一步地,所述机械臂特征表达模块用以确定动态方程,动态方程为:
11、
12、其中,q为机械臂关节角变量,为关节角速度,τ为机械臂的扭矩,m(q)为n×n矩阵,将n×n矩阵确定为惯性矩阵,为离心力和哥氏力矩阵,g(q)∈rn为重力矩阵,n为机械臂的关节总数,为非线性干扰,为力矩。
13、进一步地,所述机械臂特征表达模块用以确定力矩;
14、
15、为机械臂第i个关节的力矩,i=1,2,3,……n,n为机械臂的关节总数;
16、所述机械臂特征表达模块用以确定力矩的约束,力矩的约束为:
17、
18、其中,qmin为预设的力矩的最小值,qmax为预设的力矩的最大值。
19、进一步地,所述机械臂特征表达模块用以确定非线性干扰;
20、
21、其中,用以表示非线性干扰,为第i个关节受到的干扰力,i=1,2,3,……n,n为机械臂的关节总数,r为随机数;
22、所述机械臂特征表达模块用以确定第i个关节受到的干扰力的约束条件;
23、
24、其中,radn∈[0,1]为随机数,x为预设触发数值,x∈[0,1];在随机数radn大于预设触发数值的情况下,干扰触发;g(r)用以在干扰触发的情况下确定干扰力矩的未知函数,g(r)∈(-k,k)。
25、进一步地,所述比例智能体模块用以确定定义元组;
26、定义元组为d=(s,a,π,q,r,γ),
27、其中,s表示状态空间,a表示行动空间,π表示需要训练的actor神经网络,q表示需要训练的critic神经网络,r表示奖励空间,γ为折扣因子。
28、进一步地,所述比例智能体模块用以确定td3的目标策略输出目标动作的公式;
29、a'(s′)=clip(πφ′(s′)+clip(∈,-c,c),alow,ahigh)
30、其中,a’为目标动作,s’为根据当前动作作用于当前状态产生的下一个状态,πφ′(s′)为目标策略πφ′根据下一动作s’产生的目标动作,∈为添加的随机噪声,∈的值域为(-c,c),(alow,ahigh)为目标策略输出目标动作的大小范围,clip(a,b,c)表示用范围(b,c)对a进行截断裁剪;
31、td3为孪生延迟深度确定性策略梯度算法,td3是一种专门为了连续动作空间任务设计的非在线actor-critic drl算法;
32、所述比例智能体模块用以确定q,包括:
33、所述actor-critic drl算法包括两个不同的用以对动作进行估计q网络,所述比例智能体模块将两个q值中最小的q值确定为更新目标,以抑制持续地过高估计;
34、在actor-critic drl算法中基于q值求解公式确定q值,q值求解公式为,
35、
36、其中,r为环境给的回报值,γ为折扣因子,是由双q网络组成的critic神经网络,qθ′i为网络参数为θ′的包含两个q网络的critic神经网络;
37、所述比例智能体模块用以确定π,包括:
38、用以确定actor网络的更新公式,actor网络的更新公式为:
39、
40、其中,为经验池,为actor网络在参数更新时的策略梯度,φ为网络参数。
41、进一步地,所述误差公式为,
42、
43、其中(si,ai)是一个回合的状态和专家动作,n是从数据集中抽取的样本数,f(si)是待训练网络对当前状态的预测动作,l(a)为loss值。
44、进一步地,所述多智能体模块用以通过pid控制器表达式确定pid参数,pid控制器表达式为
45、
46、其中,为pid智能体输出的力矩,p是比例项的输出,kp是比例系数,e(t)表示t时刻的误差,i表示积分项的输出,ki是积分系数,∫0te(t)dt表示误差从开始到当前时刻的积分,d是微分项的输出,kd是微分系数,是误差的变化率,通过td3输出pid的三个参数kp、ki以及kd。
47、进一步地,pid奖励函数为,
48、rp(t)=-|ve本文档来自技高网...
【技术保护点】
1.一种基于行为克隆的机械臂连续轨迹跟踪控制系统,其特征在于,包括:
2.根据权利要求1所述的基于行为克隆的机械臂连续轨迹跟踪控制系统,其特征在于,所述机械臂特征表达模块用以确定动态方程,动态方程为:
3.根据权利要求2所述的基于行为克隆的机械臂连续轨迹跟踪控制系统,其特征在于,所述机械臂特征表达模块用以确定力矩;
4.根据权利要求3所述的基于行为克隆的机械臂连续轨迹跟踪控制系统,其特征在于,所述机械臂特征表达模块用以确定非线性干扰;
5.根据权利要求4所述的基于行为克隆的机械臂连续轨迹跟踪控制系统,其特征在于,所述比例智能体模块用以确定定义元组;
6.根据权利要求5所述的基于行为克隆的机械臂连续轨迹跟踪控制系统,其特征在于,所述比例智能体模块用以确定TD3的目标策略输出目标动作的公式;
7.根据权利要求6所述的基于行为克隆的机械臂连续轨迹跟踪控制系统,其特征在于,所述误差公式为,
8.根据权利要求7所述的基于行为克隆的机械臂连续轨迹跟踪控制系统,其特征在于,所述多智能体模块用以通过PID控制器表
9.根据权利要求8所述的基于行为克隆的机械臂连续轨迹跟踪控制系统,其特征在于,PID奖励函数为,
10.根据权利要求9所述的基于行为克隆的机械臂连续轨迹跟踪控制系统,其特征在于,所述更新模块用以控制所述PID智能体更新:
...【技术特征摘要】
1.一种基于行为克隆的机械臂连续轨迹跟踪控制系统,其特征在于,包括:
2.根据权利要求1所述的基于行为克隆的机械臂连续轨迹跟踪控制系统,其特征在于,所述机械臂特征表达模块用以确定动态方程,动态方程为:
3.根据权利要求2所述的基于行为克隆的机械臂连续轨迹跟踪控制系统,其特征在于,所述机械臂特征表达模块用以确定力矩;
4.根据权利要求3所述的基于行为克隆的机械臂连续轨迹跟踪控制系统,其特征在于,所述机械臂特征表达模块用以确定非线性干扰;
5.根据权利要求4所述的基于行为克隆的机械臂连续轨迹跟踪控制系统,其特征在于,所述比例智能体模块用以确定定义元组;
6.根据权利要求5所述的...
【专利技术属性】
技术研发人员:王福杰,彭永岗,易佳豪,谢仲业,秦毅,郭芳,丁文霞,
申请(专利权)人:东莞理工学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。