【技术实现步骤摘要】
一种基于神经调节机制的机器人行为决策方法及设备
[0001]本申请涉及计算机领域,尤其涉及一种基于神经调节机制的机器人行为决策方法及设备。
技术介绍
[0002]现有技术中,作为机器人和人工智能技术相结合的完美载体,移动机器人已经被广泛地应用于人类的生产和日常生活中,如工业、农业、军事、医疗、太空探索、家政服务等,而能够进行高效、灵活的环境识别是移动机器人完成各项任务的重要前提之一。在环境认知过程中,移动机器人一般不具有环境的先验知识,运动过程中可能会遇到各种动态或静态的障碍物,甚至各种突发情况。如何有效调整机器人的运动行为,使其能够快速灵活地应对变化的环境,特别是突发的不确定的事件或场景,即非预期不确定性事件,是移动机器人行为决策中必须解决的一个重要问题。
[0003]当环境中发生非预期不确定性事件时,研究人员通过计算不确定性事件的概率、预测非预期不确定行为以及神经网络等方法,来确定机器人的行为。但概率预测方法需要大量的统计数据,而有些数据在实际现场中很难获得,故难以保证行为预测结果的准确性;而基于神经网络的机器人行为决策需要大量的训练样本,学习效率低,且当样本类别不确定或样本数量较少时,决策效果并不理想。
[0004]近年来,随着神经科学的发展,研究人员开始研究生物体在面对环境中突发不确定事件时的神经调节机制,尝试将生物神经调节系统的工作机理应用于移动机器人的行为决策中。Krichmar和Dasgupta等研究表明,基于生物神经调节系统的构型可以使智能体具有自主认知和经验学习的能力,使它们能够更好 ...
【技术保护点】
【技术特征摘要】
1.一种基于神经调节机制的机器人行为决策方法,其特征在于,所述方法包括:获取目标位置和当前环境信息、当前机器人状态信息,并输入调节发育网络中,所述当前环境信息包括障碍物速度、障碍物位置和当前障碍物个数;在所述调节发育网络中,基于所述当前环境信息和所述当前机器人状态信息计算得到当前碰撞危险度,并基于所述当前碰撞危险度引入惩罚因子、奖励因子、遗忘因子对调节发育网络隐含层神经元的原始学习率进行调节得到所述调节发育网络隐含层神经元的新的学习率;在运动皮层中,采用top
‑
k竞争机制,更新每个动作对应的神经元的预响应值,确定最大预响应值对应的动作作为最优动作决策,并利用所述当前碰撞危险度,对所述最优动作决策中的机器人运动方向和机器人运动速度大小进行调节,得到调节后的最优动作决策并执行。2.根据权利要求1所述的方法,其特征在于,所述在所述调节发育网络中,基于所述当前环境信息和所述当前机器人状态信息计算得到当前碰撞危险度,并基于所述当前碰撞危险度引入惩罚因子、奖励因子、遗忘因子对调节发育网络隐含层神经元的原始学习率进行调节得到所述调节发育网络隐含层神经元的新的学习率之前还包括:获取前一时刻障碍物个数;判断所述当前障碍物个数是否大于所述前一时刻障碍物个数,若是,则基于所述当前环境信息和所述当前机器人状态信息进行计算得到所述当前碰撞危险度。3.根据权利要求2所述的方法,其特征在于,所述在所述调节发育网络中,基于所述当前环境信息和所述当前机器人状态信息计算得到当前碰撞危险度,包括:利用所述当前机器人状态信息中的机器人位置和所述障碍物位置,计算得到最近障碍物距离;预置机器人的安全距离,并结合所述最近障碍物距离和所述障碍物速度计算得到所述当前碰撞危险度,公式如下:U=(d
min
/v
′‑
k
t
T)/(d
min
‑
d
s
)其中,d
min
表示障碍物与机器人之间的最小距离,v
′
表示障碍物速度在d
min
方向上的投影,k
t
表示调节参数,T表示机器人的决策周期,d
s
表示机器人的安全距离。4.根据权利要求3所述的方法,其特征在于,所述基于所述当前碰撞危险度引入惩罚因子、奖励因子、遗忘因子对调节发育网络隐含层神经元的原始学习率进行调节得到所述调节发育网络隐含层神经元的新的学习率,包括:预置碰撞危险度阈值,当所述当前碰撞危险度大于所述碰撞危险度阈值时,所述调节发育网络切换为腹侧注意力机制;基于最近障碍物距离得到惩罚值,利用所述当前碰撞危险度和所述惩罚值之间的调节关系得到惩罚因子;基于所述目标位置和所述机器人位置得到所述机器人与目标之间的距离并计算得到奖励值,利用所述当前碰撞危险度和所述奖励值之间的调节关系得到奖励因子;基于所述...
【专利技术属性】
技术研发人员:王东署,赵红燕,王河山,辛健斌,马天磊,罗勇,张方方,
申请(专利权)人:郑州大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。