一种人机自主智能协同的跟踪方法技术

技术编号:36016620 阅读:10 留言:0更新日期:2022-12-21 10:08
本发明专利技术构建了一种人机自主智能协同的跟踪方法,步骤为:1)基于马尔科夫链对工业现场人机协同场景建立链式模型;2)对人机协同行为和过程建立示教模型;3)通过机器学习人机协同行为,并基于目标完成情况建立奖惩函数和协同策略规则;4)对策略规则进行训练,寻找最优方案;5)依据评价指标对训练好的策略进行测试,如果表现满足要求则将策略函数输出,否则回到3)进行重新学习;6)利用子目标评价函数对策略函数进行分类,并根据目标函数的偏好选取合适的策略函数。本发明专利技术收敛速度快,目标协同精度高,对快速移动或者速度变化频繁的人机协同任务目标性能好等优点,并在流水线机器人跟随作业、台车跟随注油等领域具有广阔的应用前景。台车跟随注油等领域具有广阔的应用前景。台车跟随注油等领域具有广阔的应用前景。

【技术实现步骤摘要】
一种人机自主智能协同的跟踪方法


[0001]本专利技术属于自主智能协同控制和协作机器人目标自动跟随等
,具体说是一种人机自主智能协同的跟踪方法,即根据机器人自身状态,结合视觉判断目标状态从而做出相应决策实现协同和跟踪的目标,并应用于流水线机器人跟随作业、台车跟随注油、无人车间人机协同作业、机器人巡航等领域。

技术介绍

[0002]自主智能协同跟踪指面向工业环境的人机物协同时人和机器具备环境感知、行为控制、动态决策、自动执行等使用功能的智能化综合控制系统,基于机器学习的过程、行为运行准则与周边环境情况等自主完成复杂任务,并可以利用机器视觉信息来控制机器人的移动,使机器人末端执行器迅速达到期望的位姿。这不仅需要机器人控制系统具有较高的反应速度,同时也对控制动作的精确度有着较高的要求。而具有感知和智能反馈的运动控制与协调问题对自主智能协同技术的应用具有重要的影响,如何建立场景模型、行为模型,并能自主学习行为规则,优化协同效率是关键的内容。因此,对自主智能协同的跟踪问题的研究是当前一项重要课题。
[0003]然而,目前的机器人跟踪技术主要依赖于人为事先设定好跟踪轨迹和各种判定条件,机器只能死板地根据设定进行周期性运转。机器本身往往缺乏智能性,如果环境发生改变,如出现障碍物等,机器一般不会改变策略,从而可能造成不必要的损耗。同时,人机之间往往也缺乏交互,人无法对机器做出指导,机器也难以向人反馈详细的作业情况。此外,目前的跟踪技术对视觉精度要求较高,当视觉传感器被遮挡或光线不良的情况下,机器常常会出现误判等情况,影响正常作业效率。以上问题是目前人机自主智能协同跟踪技术中急需解决的问题。

技术实现思路

[0004]本专利技术结合机器人跟踪技术和人机协同方法,将两者合二为一,结合强化学习算法,提出了一种人机自主智能协同的跟踪方法,其目的在于实现人机系统在不同环境中可以自主化、智能化地作业,以更好地完成各类跟踪和协同的目标任务。
[0005]本专利技术为实现上述目的所采用的技术方案是:
[0006]一种人机自主智能协同的跟踪方法,包括以下步骤:
[0007]1)建立人机协同场景链式模型:根据马尔科夫链模型建立一个五元组;
[0008]2)根据目标要求,进行人工示教,得到多个策略,构成训练集,所述策略为智能体的某一状态对此状态下所有可能的动作的映射;
[0009]3)智能体获取策略,并对其进行离散采样,分别提取每个策略中各个动作的参数数值和频率,进而得到智能体不同状态下每个动作的近似概率分布;
[0010]4)通过近似概率分布以及状态回报得到对应动作的奖励值,进而得到奖励函数;
[0011]5)基于奖励函数训练最优策略;
[0012]6)对最优策略的性能进行测试:依据评价函数判断最优策略是否满足要求,即将评价函数与阈值比较,若不满足要求,则执行步骤7),否则,执行步骤8);
[0013]7)将最优策略加入训练集中,并修改估计参数,返回步骤4)重新估计奖励函数;
[0014]8)提取最优策略的偏好;
[0015]9)根据最优策略的偏好判断该策略是否存在部分优于现有策略,如果是,则将该策略加入现有策略,组成策略集,并修改估计参数,返回步骤4),否则,舍弃该策略;若连续舍弃次数满足设定次数,则执行步骤10),否则,修改估计参数,返回步骤4);
[0016]10)智能体根据最优策略的偏好进行策略集中的策略分类,完成模型构建,智能体根据模型中的策略进行自主跟踪。
[0017]所述五元组为(S,A,P,R,γ),其中,集合S表示智能体当前的状态集,集合A表示智能体下一时刻动作集,P为A中各种动作的概率,R为奖励函数,γ∈(0,1)为折扣系数,用于计算累计奖励值。
[0018]所述智能体状态为(d,v,α,β,θ),其中,d为智能体本身与目标的相对距离,v为智能体自身速度,α,β,θ分别为智能体本身与目标之间的空间角度;
[0019]所述动作为(μ,ω,δ),其中,μ为智能体执行动作的线加速度,ω为智能体执行动作的角加速度,δ为执行动作的时间。
[0020]所述步骤4)具体为:
[0021]通过近似概率分布以及状态回报得到对应动作的奖励值:
[0022][0023]其中为动作μ
t
的奖励值,为进入状态s
t+1
获得的估计回报,为状态s
t+1
再进行状态转移获得的估计回报,f(μ
(t+1)i
)为近似概率分布;
[0024]根据奖励值,可以得到当前状态下奖励最大的前n个动作,将除该n个动作以外的动作概率置零,并将置零的概率加到该n个动作概率上,根据奖励值,可以获得奖励函数:
[0025][0026]P(μ
t
|s
t
)为在s
t
状态下动作μ
t
的概率。
[0027]所述步骤5)中通过强化学习算法对五元组中的数据进行训练,得到最优策略。
[0028]所述评价函数为:
[0029]f(x)=g(x)+h(x)
[0030]其中,f(x)为评价函数,g(x)表示当前策略对目标的完成度,h(x)表示当前策略完成过程中产生的代价,g(x)的值和h(x)的值均通过离散采样得到。
[0031]所述估计参数包括:状态回报、动作个数n以及折扣系数γ。
[0032]对于一个目标,可以将其分解为多个并列的子目标或者多个按序进行的分目标,针对每个子目标或分目标均设计一个评价函数,用于衡量最优策略在子目标或分目标上的完成情况,所述最优策略的偏好为其子目标或分目标的评价函数的值集合。
[0033]所述策略集为包含多种不同策略、每种策略的判定条件、策略的子目标或分目标
评价值的数据集合。
[0034]本专利技术具有以下有益效果及优点:
[0035]1.本专利技术提出了一种机器人自主智能协同的跟踪方法,主要面向工业场景中人机协同完成多目标任务,通过现场数据和协同行为模型双向驱动实现多目标优化,从而根据不同用户及不同环境下的人机自主协同完成特定任务需求实现最大限度的自主性。引入多策略模型可以有效解决单一模型可能存在的环境适应力不佳、抗干扰能力弱的问题。
[0036]2.本专利技术中的跟踪方法无需考虑机器人各部位之间的坐标转换,只需让机器人通过与环境不断交互从而学习到如何进行动作决策,降低了大大简化了计算量并且减少了坐标转换可能带来的误差。
[0037]3.本专利技术中的跟踪方法初期是对人工示教模型的模仿,然后从示教模型中学习执行动作的策略,最终获得最优策略。这种学习过程并不会受示教模型的优化性能限制,同时也不受训练数据集的大小影响。这使得机器人更具有智能性,对于各种突发状况,机器人可以进行自主决策,大大提高了其泛化性能。
[0038]4.本专利技术中的跟踪方法在人工示教的帮助可以加快训练速度,克服了传统强化学习算法前期本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种人机自主智能协同的跟踪方法,其特征在于,包括以下步骤:1)建立人机协同场景链式模型:根据马尔科夫链模型建立一个五元组;2)根据目标要求,进行人工示教,得到多个策略,构成训练集,所述策略为智能体的某一状态对此状态下所有可能的动作的映射;3)智能体获取策略,并对其进行离散采样,分别提取每个策略中各个动作的参数数值和频率,进而得到智能体不同状态下每个动作的近似概率分布;4)通过近似概率分布以及状态回报得到对应动作的奖励值,进而得到奖励函数;5)基于奖励函数训练最优策略;6)对最优策略的性能进行测试:依据评价函数判断最优策略是否满足要求,即将评价函数与阈值比较,若不满足要求,则执行步骤7),否则,执行步骤8);7)将最优策略加入训练集中,并修改估计参数,返回步骤4)重新估计奖励函数;8)提取最优策略的偏好;9)根据最优策略的偏好判断该策略是否存在部分优于现有策略,如果是,则将该策略加入现有策略,组成策略集,并修改估计参数,返回步骤4),否则,舍弃该策略;若连续舍弃次数满足设定次数,则执行步骤10),否则,修改估计参数,返回步骤4);10)智能体根据最优策略的偏好进行策略集中的策略分类,完成模型构建,智能体根据模型中的策略进行自主跟踪。2.根据权利要求1所述的一种人机自主智能协同的跟踪方法,其特征在于,所述五元组为(S,A,P,R,γ),其中,集合S表示智能体当前的状态集,集合A表示智能体下一时刻动作集,P为A中各种动作的概率,R为奖励函数,γ∈(0,1)为折扣系数,用于计算累计奖励值。3.根据权利要求1或2所述的一种人机自主智能协同的跟踪方法,其特征在于,所述智能体状态为(d,v,α,β,θ),其中,d为智能体本身与目标的相对距离,v为智能体自身速度,α,β,θ分别为智能体本身与目标之间的空间角度;所述动作为(μ,ω,δ),其中,μ为智能体执行动作的线加速度,ω为智能体执行动作的角加速度,δ为执行动作的时间。4.根据权利要求1所述的一...

【专利技术属性】
技术研发人员:库涛俞宁林乐新李殿博李进
申请(专利权)人:中国科学院沈阳自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1