一种基于深度强化学习的外骨骼主助力参数的优化方法技术

技术编号：27665204 阅读：82 留言：0更新日期：2021-03-17 01:17

本发明专利技术公开了一种基于深度强化学习的外骨骼主助力参数的优化方法，采用复合正弦曲线形式外骨骼助力曲线方程确定外骨骼主助力参数，利用深度强化学习中的深度确定性策略梯度方法用以解决柔性外骨骼连续性控制问题，搭建策略网络和评价网络，并实时采集并处理外骨骼穿戴者髋关节屈曲角信息，用于产生参数训练的数据集，进行外骨骼主助力参数的训练优化，实现外骨骼主助力参数的自适应优化。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度强化学习的外骨骼主助力参数的优化方法(一)
：本专利技术涉及机器人
，具体涉及一种基于深度强化学习的外骨骼主助力参数的优化方法。(二)
技术介绍
：对于传统的下肢康复训练，由专业医生指导，并且在护士或家庭成员的协助下完成，该种方式耗时长、成效低、劳动强度大。为减轻人力负担，实现高效康复服务，步态康复柔性外骨骼得到了广泛应用。步态康复柔性外骨骼结合了智能机器人技术和康复治疗医学理论，可以代替专业医生，帮助患者完成下肢康复训练。它的出现为下肢功能障碍者的康复治疗提供了新的选择，弥补了下肢功能障碍者临床治疗的不足。步态康复柔性外骨骼的治疗方法是通过一条柔性带将患者的下肢与外骨骼固定在一起。外骨骼驱动病人的下肢完成各种设定的康复训练动作，刺激人体下肢关节和肌肉的神经控制系统，从而实现恢复病人下肢运动功能。步态康复柔性外骨骼的服务对象决定了其需要良好的舒适性与自适应性，能够给患者带来较好的康复体验以及能够适用于不同人群的下肢功能障碍者。因此，如何实现外骨骼深度强化学习的助力参数优化为步态康复柔性外骨骼舒适可靠的核心技术之一。传统的下肢康复训练，由专业医生指导，并且在护士或家庭成员的协助下完成，该种方式耗时长、成效低、劳动强度大。在下肢功能障碍者康复治疗中，需要对患者进行一系列的连续动作的康复训练，由于患者的下肢情况各不相同，需要对患者精准助力，助力太小会引起患者腿部还未得到指定姿态便结束此动作，导致下肢康复训练效果差；助力过大会引起患者腿部拉伸过大，容易导致患者的二次损伤与不必要的伤害...

【技术保护点】
1.一种基于深度强化学习的外骨骼主助力参数优化的方法，其特征在于它包括以下步骤：/n(1)确定优化参数；/n根据外骨骼助力曲线方程确定优化参数，该曲线方程为公式(1)所示复合正弦曲线形式：/n

【技术特征摘要】
1.一种基于深度强化学习的外骨骼主助力参数优化的方法，其特征在于它包括以下步骤：
(1)确定优化参数；
根据外骨骼助力曲线方程确定优化参数，该曲线方程为公式(1)所示复合正弦曲线形式：

式中，Fassist为实时助力大小，A为摆动相助力幅值，t*是当前时刻到助力开始时刻之间时间，Tb为当前步态周期的摆动相周期，α是为外骨骼主助力参数，作为公式(1)的波形控制参数，起改变助力峰值位置的作用，取值范围为-1≤α≤1；
(2)设定参数：
设定外骨骼穿戴者每次行走时间间隔为τ＝5～7s，可适当增加时间间隔，保证外骨骼穿戴者能够步行至少3步，用于获取当前步态周期的摆动相周期，而且需使外骨骼穿戴者结束每次行走时间间隔时能够平稳站立，且每次前进后外骨骼重新判断助力情况；预先设置最大情节数E、批次抽样数量N及每情节最大时间轮Tmax；
(3)设计深度确定性策略梯度方法中的标准配置，具体包括对策略网络及评价网络的设计；其中，所述策略网络包括在线策略网络μ(s|αμ)和目标策略网络μ(s|αμ')；所述评价网络包括在线评价网络Q(s,a|αQ)和目标评价网络Q(s,a|αQ')；
(4)从1到E对情节数e进行枚举，即对外骨骼主助力参数α进行E次收敛，每一情节开始时可获得初始时刻外骨骼的状态；
(5)获取初始状态：
当步骤(4)中的每一情节开始时，需要令外骨骼穿戴者在无助力情况下正常行走τ的时间间隔，并获取其外骨骼的状态作为t＝1时刻的初始时刻外骨骼的状态s1，具体包括初始时刻摆动相助力幅值A1、初始时刻外骨骼穿戴者髋关节的屈曲角度θ1、初始时刻步态周期T1、初始时刻步态周期的摆动相周期Tb1、初始时刻步态周期下髋关节的最大屈曲角θmax,1、初始时刻步态周期下髋关节的最小屈曲角θmin,1；
(6)将时间轮从1到Tmax进行枚举，在每一时间轮开始时记录t时刻，所述枚举时间轮即在每一情节数中进行Tmax次步骤(7)至步骤(13)，目的是在每一情节下外骨骼执行由在线策略网络选取Tmax次外骨骼的动作，从而产生足够多的数据集用于参数训练，提高训练结果的可靠性。而且Tmax的值往往要取的足够大，目的是使优化的参数能够收敛；
(7)所述在线策略网络根据(6)式选择t时刻外骨骼的动作：
at＝μ(st|αμ)+Noise(6)
其中，Noise是用于扩大取值范围，使得选取t时刻外骨骼的动作的范围更大；
(8)外骨骼执行步骤(7)选取的动作，外骨骼穿戴者根据外骨骼执行的动作持续一次τ的时间间隔，可以得到柔性外骨骼反馈的标量化奖赏rt和下一时刻的外骨骼状态st+1；
(9)状态转换过程：
将t时刻外骨骼的状态st、步骤(7)得到的t时刻外骨骼的动作at、步骤(8)得到的t的下一时刻外骨骼的状态st+1及柔性外骨骼反馈的标量化奖赏rt，作为一个训练数据集存入经验回放池R中用于参数训练；
(10)随机采样N个步骤(9)状态转换过程作为一个批量训练数据进行参数训练；
(11)执行完步骤(7)到步骤(10)即完成一次时间轮，枚举结束，并令时间轮加1，继续执行步骤(7)到步骤(10)；直到策略网络和评价网络中各个网络的参数实现收敛，令本发明基于深度强化学习方法所要优化的外骨骼主助力参数α等于策略网络中目标策略网络的目标策略网络参数αμ'，策略网络中目标策略网络的目标策略网络参数αμ'收敛，即代表在此情节数下本发明基于深度强化学习方法所要优化的外骨骼主助力参数α收敛，外骨骼穿戴者的步行比稳定在设定好的健康老年人步行比，则结束当前情节数，进行下一次情节数；
(12)执行完步骤(5)到步骤(11)即完成一次情节数e，枚举结束，并令e＝e+1，继续执行步骤(5)到步骤(11)；直到每次情节数结束，策略网络中目标策略网络的目标策略网络参数αμ'都收敛在同一个值，即代表外骨骼主助力参数α都收敛在同一个值，则视为基于深度强化学习方法所要优化的外骨骼主助力参数α完成，可利用该外骨骼主助力参数α实现外骨骼最佳助力，使外骨骼穿戴者的步行比始终稳定在设定好的健康老年人步行比，实现外骨骼穿戴者的康复运动。

2.根据权利要求1所述一种基于深度强化学习的外骨骼主助力参数优化的方法，其特征在于所述摆动相助力幅值A由助力元器件的额定输出值决定，且在助力元器件额定工作下，摆动相助力幅值为已知值，可人为设定；所述当前步态周期的摆动相周期Tb是利用MEMS姿态传感器采集该穿戴者行走时的髋关节屈曲角参数，以获取穿戴者髋关节的屈曲角参数曲线，采取屈曲角参数曲线中前三个摆动相周期平均得下一个步态的摆动相周期方法，即将前三个摆动相周期平均得下一个步态的摆动相周期作为当前步态周期的摆动相周期。因此，当前步态周期的摆动相周期相当于是一个已知值，由公式(2)获得。

3.根据权利要求2所述一种基于深度强化学习的外骨骼主助力参数优化的方法，其特征在于所述当前步态周期的摆动相周期Tb的具体求取方法如下：
将MEMS姿态传感器放置在柔性外骨骼机器人的穿戴者的左右大腿后部中间位置，并实时采集该穿戴者正常行走时的髋关节屈曲角参数，以获取穿戴者髋关节的屈曲角参数曲线，将波峰时刻记为t波峰，将波谷时刻记为t波谷，并且记录对应波峰的髋关节屈曲角和波谷的髋关节屈曲角，进一步则可计算得到公式(3)所示的当前步态周期和公式(4)所示的步态周期的摆动相周期为：
T(k)＝t波谷(k)-t波谷(k-1)(3)
Tb(k)＝t波峰(k)-t波谷(k)(4)
其中，式(3)表示当前步态周期是由相邻的两个波谷点的值计算得到，其中T为当前步态周期；式(4)表示步态周期的摆动相周期是由相邻的波峰点和波谷点的值计算得到；进一步可得到与当前步态周期对应的最大髋关节屈曲角θmax(k)及最小髋关节屈曲角θmin(k)。

4.根据权利要求2所述一种基于深度强化学习的外骨骼主助力参数优化的方法，其特征在于所述穿戴者髋关节的屈曲角参数曲线的获取方法包括以下步骤：
(1-1)由MEMS姿态传感器获取柔性外骨骼机器人的穿戴者的髋关节屈曲角参数信号，并将其转换成数字量信号，发送给单片机，并由其发送给PC端；其中，单片机与PC端之间的数据传输是单片机通过串口通讯经蓝牙模块利用无线网络传输给PC端；
(1-2)利用安装在PC端的MATLAB中的串口接口实现髋关节屈曲角参数信号的获取，并通过“plot”函数绘制髋关节屈曲角参数实时曲线。

5.根据权利要求1所述一种基于深度强化学习的外骨骼主助力参数优化的方法，其特征在于所述步骤(2)中的设置最大情节数E是指设置利用深度强化学习方法优化外骨骼主助力参数α的收敛次数，即：一次情节对应一次参数的收敛；所述设置每情节最大时间轮Tmax是指设置在每一情节下要进行的轮数，每一轮数对应一次时间间隔数，即：每一次将外骨骼主助力参数α收敛最大需要完成Tmax轮，每一轮需要外骨骼穿戴者走τ的时间间隔；并且，一次轮数开始，记录一次时间，并将轮数开始时间定义为t时刻，即第一轮数开始时间开始对应t＝1时刻，以此类推，第Tmax轮数开始时间开始对应t＝Tmax时刻。

6.根据权利要求1所述一种基于深度强化学习的外骨骼主助力参数优化的方法，其特征在于所述步骤(3)中利用深度确定性策略梯度方法对策略网络及评价网络的设计具体由以下步骤构成：
(3-1)对在线策略网络μ(s|αμ)及在线评价网络Q(s,a|αQ)进行初始化；
(3-2)构建和在线策略网络μ(s|αμ)结构相同的目标策略网络μ(s|αμ')，构建和在线评价网络Q(s,a|αQ)结构相同的目标评价网络Q(s,a|αQ')，并且将在线策略网络和在线评价网络的参数复制到各自的目标网络参数，即αμ'←αμ和αQ'←αQ；其中，外骨骼主助力参数α作为基于深度强化学习方法所要优化的参数，s是指外骨骼的状态，a是指外骨骼的动作；初始化经验回放池R；<...

【专利技术属性】
技术研发人员：孙磊，陈鑫，董恩增，佟吉刚，李云飞，曾德添，龚欣翔，李成辉，
申请(专利权)人：天津理工大学，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人