当前位置: 首页 > 专利查询>郑州大学专利>正文

一种基于神经调节机制的机器人行为决策方法及设备技术

技术编号:31633608 阅读:23 留言:0更新日期:2021-12-29 19:12
本申请提供一种基于神经调节机制的机器人行为决策方法及设备,本申请通过设计新的碰撞危险度指标,该指标不仅考虑了障碍物的距离,同时也考虑了障碍物速度对移动机器人运动的影响,通过碰撞危险度引导移动机器人的注意力网络在背侧注意力机制和腹侧注意机制之间切换,同时对机器人运动方向以及运动速度大小进行调节,使机器人灵活应对环境中的不确定性事件,并且设计了一种新的神经元学习率,增强调节发育网络隐含层神经元的学习能力,提高机器人应对突变环境的快速响应能力。器人应对突变环境的快速响应能力。器人应对突变环境的快速响应能力。

【技术实现步骤摘要】
一种基于神经调节机制的机器人行为决策方法及设备


[0001]本申请涉及计算机领域,尤其涉及一种基于神经调节机制的机器人行为决策方法及设备。

技术介绍

[0002]现有技术中,作为机器人和人工智能技术相结合的完美载体,移动机器人已经被广泛地应用于人类的生产和日常生活中,如工业、农业、军事、医疗、太空探索、家政服务等,而能够进行高效、灵活的环境识别是移动机器人完成各项任务的重要前提之一。在环境认知过程中,移动机器人一般不具有环境的先验知识,运动过程中可能会遇到各种动态或静态的障碍物,甚至各种突发情况。如何有效调整机器人的运动行为,使其能够快速灵活地应对变化的环境,特别是突发的不确定的事件或场景,即非预期不确定性事件,是移动机器人行为决策中必须解决的一个重要问题。
[0003]当环境中发生非预期不确定性事件时,研究人员通过计算不确定性事件的概率、预测非预期不确定行为以及神经网络等方法,来确定机器人的行为。但概率预测方法需要大量的统计数据,而有些数据在实际现场中很难获得,故难以保证行为预测结果的准确性;而基于神经网络的机器人行为决策需要大量的训练样本,学习效率低,且当样本类别不确定或样本数量较少时,决策效果并不理想。
[0004]近年来,随着神经科学的发展,研究人员开始研究生物体在面对环境中突发不确定事件时的神经调节机制,尝试将生物神经调节系统的工作机理应用于移动机器人的行为决策中。Krichmar和Dasgupta等研究表明,基于生物神经调节系统的构型可以使智能体具有自主认知和经验学习的能力,使它们能够更好地探索环境来执行任务,并在环境变化时迅速做出合适的决策。
[0005]研究表明,神经调节系统中的去甲肾上腺素、血清素(5

羟色胺)、多巴胺和乙酰胆碱在处理风险、奖励、新颖、努力和社会合作等环境信号方面发挥着重要作用。故研究人员尝试将人脑的神经调节机制应用于移动机器人的行为决策中,包括处理环境中的突发不确定性事件。Krichmar用突然出现的光束模拟环境中的突发不确定性事件,通过前额叶皮层到神经调节系统的自上而下的调节信号来指导机器人的行为决策,并验证了高水平的血清素通过抑制多巴胺会导致机器人的退缩行为,而高水平的多巴胺或低水平的血清素则会导致机器人产生好奇的探索行为的假设。Khamassi等提出了一种新的计算模型,用于研究外侧前额叶和前扣带皮层之间的相互作用,来应对环境中的突发不确定性。但这些方法只考虑了多巴胺和血清素在移动机器人行为决策中的调节作用,没有考虑其他神经递质的调节作用,机器人行为调节和决策能力有限。
[0006]有学者对此问题进行了初步探索,除多巴胺和5

烃色胺外,进一步研究了乙酰胆碱和去甲肾上腺素在移动机器人应对环境不确定性事件时的调节机理,但前期研究只考虑了障碍物距离对移动机器人行为决策的影响,未考虑其速度的影响,且调节发育网络参数调节的方法较为简单,导致移动机器人在应对突发不确定性事件时灵活性有限。

技术实现思路

[0007]本申请的一个目的是提供一种基于神经调节机制的机器人行为决策方法及设备,以解决现有技术中如何提高机器人应对突发不确定性事件时行为调节的速度和灵活性的问题。
[0008]根据本申请的一个方面,提供了一种基于神经调节机制的机器人行为决策方法,包括:
[0009]获取目标位置和当前环境信息、当前机器人状态信息,并输入调节发育网络中,所述当前环境信息包括障碍物速度、障碍物位置和当前障碍物个数;
[0010]在所述调节发育网络中,基于所述当前环境信息和所述当前机器人状态信息计算得到当前碰撞危险度,并基于所述当前碰撞危险度引入惩罚因子、奖励因子、遗忘因子对调节发育网络隐含层神经元的原始学习率进行调节得到所述调节发育网络隐含层神经元的新的学习率;
[0011]在运动皮层中,采用top

k竞争机制,更新每个动作对应的神经元的预响应值,确定最大预响应值对应的动作作为最优动作决策,并利用所述当前碰撞危险度,对所述最优动作决策中的机器人运动方向和机器人运动速度大小进行调节,得到调节后的最优动作决策并执行。
[0012]进一步地,上述机器人行为决策方法中,所述在所述调节发育网络中,基于所述当前环境信息和所述当前机器人状态信息计算得到当前碰撞危险度,并基于所述当前碰撞危险度引入惩罚因子、奖励因子、遗忘因子对调节发育网络隐含层神经元的原始学习率进行调节得到所述调节发育网络隐含层神经元的新的学习率之前还包括:
[0013]获取前一时刻障碍物个数;
[0014]判断所述当前障碍物个数是否大于所述前一时刻障碍物个数,若是,则基于所述当前环境信息和所述当前机器人状态信息进行计算得到所述当前碰撞危险度。
[0015]进一步地,上述机器人行为决策方法中,所述在所述调节发育网络中,基于所述当前环境信息和所述当前机器人状态信息计算得到当前碰撞危险度,包括:
[0016]利用所述当前机器人状态信息中的机器人位置和所述障碍物位置,计算得到最近障碍物距离;
[0017]预置机器人的安全距离,并结合所述最近障碍物距离和所述障碍物速度计算得到所述当前碰撞危险度,公式如下:
[0018]U=(d
min
/v
′‑
k
t
T)/(d
min

d
s
)
[0019]其中,d
min
表示障碍物与机器人之间的最小距离,v

表示障碍物速度在d
min
方向上的投影,k
t
表示调节参数,T表示机器人的决策周期,d
s
表示机器人的安全距离。
[0020]进一步地,上述机器人行为决策方法中,所述基于所述当前碰撞危险度引入惩罚因子、奖励因子、遗忘因子对调节发育网络隐含层神经元的原始学习率进行调节得到所述调节发育网络隐含层神经元的新的学习率,包括:
[0021]预置碰撞危险度阈值,当所述当前碰撞危险度大于所述碰撞危险度阈值时,所述调节发育网络切换为腹侧注意力机制;
[0022]基于最近障碍物距离得到惩罚值,利用所述当前碰撞危险度和所述惩罚值之间的调节关系得到惩罚因子;
[0023]基于所述目标位置和所述机器人位置得到所述机器人与目标之间的距离并计算得到奖励值,利用所述当前碰撞危险度和所述奖励值之间的调节关系得到奖励因子;
[0024]基于所述调节发育网络中神经元发放次数与所述学习率的关系引入遗忘因子;
[0025]利用所述惩罚因子、所述奖励因子、所述遗忘因子对所述调节发育网络隐含层神经元的所述原始学习率进行调节得到所述调节发育网络隐含层神经元的新的学习率。
[0026]进一步地,上述机器人行为决策方法中,所述在运动皮层中,采用top

k竞争机制,更新每个动作对应的神经元的预响应值,确定最大预响应值对应的动作作为最优动作决策,并利本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于神经调节机制的机器人行为决策方法,其特征在于,所述方法包括:获取目标位置和当前环境信息、当前机器人状态信息,并输入调节发育网络中,所述当前环境信息包括障碍物速度、障碍物位置和当前障碍物个数;在所述调节发育网络中,基于所述当前环境信息和所述当前机器人状态信息计算得到当前碰撞危险度,并基于所述当前碰撞危险度引入惩罚因子、奖励因子、遗忘因子对调节发育网络隐含层神经元的原始学习率进行调节得到所述调节发育网络隐含层神经元的新的学习率;在运动皮层中,采用top

k竞争机制,更新每个动作对应的神经元的预响应值,确定最大预响应值对应的动作作为最优动作决策,并利用所述当前碰撞危险度,对所述最优动作决策中的机器人运动方向和机器人运动速度大小进行调节,得到调节后的最优动作决策并执行。2.根据权利要求1所述的方法,其特征在于,所述在所述调节发育网络中,基于所述当前环境信息和所述当前机器人状态信息计算得到当前碰撞危险度,并基于所述当前碰撞危险度引入惩罚因子、奖励因子、遗忘因子对调节发育网络隐含层神经元的原始学习率进行调节得到所述调节发育网络隐含层神经元的新的学习率之前还包括:获取前一时刻障碍物个数;判断所述当前障碍物个数是否大于所述前一时刻障碍物个数,若是,则基于所述当前环境信息和所述当前机器人状态信息进行计算得到所述当前碰撞危险度。3.根据权利要求2所述的方法,其特征在于,所述在所述调节发育网络中,基于所述当前环境信息和所述当前机器人状态信息计算得到当前碰撞危险度,包括:利用所述当前机器人状态信息中的机器人位置和所述障碍物位置,计算得到最近障碍物距离;预置机器人的安全距离,并结合所述最近障碍物距离和所述障碍物速度计算得到所述当前碰撞危险度,公式如下:U=(d
min
/v
′‑
k
t
T)/(d
min

d
s
)其中,d
min
表示障碍物与机器人之间的最小距离,v

表示障碍物速度在d
min
方向上的投影,k
t
表示调节参数,T表示机器人的决策周期,d
s
表示机器人的安全距离。4.根据权利要求3所述的方法,其特征在于,所述基于所述当前碰撞危险度引入惩罚因子、奖励因子、遗忘因子对调节发育网络隐含层神经元的原始学习率进行调节得到所述调节发育网络隐含层神经元的新的学习率,包括:预置碰撞危险度阈值,当所述当前碰撞危险度大于所述碰撞危险度阈值时,所述调节发育网络切换为腹侧注意力机制;基于最近障碍物距离得到惩罚值,利用所述当前碰撞危险度和所述惩罚值之间的调节关系得到惩罚因子;基于所述目标位置和所述机器人位置得到所述机器人与目标之间的距离并计算得到奖励值,利用所述当前碰撞危险度和所述奖励值之间的调节关系得到奖励因子;基于所述...

【专利技术属性】
技术研发人员:王东署赵红燕王河山辛健斌马天磊罗勇张方方
申请(专利权)人:郑州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1