System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种智能体类脑局部避障方法、装置、存储介质和设备制造方法及图纸_技高网

一种智能体类脑局部避障方法、装置、存储介质和设备制造方法及图纸

技术编号:40363562 阅读:8 留言:0更新日期:2024-02-09 14:51
本发明专利技术公开了一种智能体类脑局部避障方法、装置、存储介质和设备,属于智能体避障技术领域,包括:获取智能体的状态空间S;确定智能体的自观随机最大熵和智能体在状态空间S中的奖励函数;根据自观随机最大熵和奖励函数获取具有最大期望奖励的最优避障策略。本发明专利技术通过引入自观随机最大熵即可在不附加任何额外的模型便可有效捕获机器人在状态空间S中不同状态间的相似信息,在产生更稳定的训练奖励的同时,提高了计算效率,解决了当前传统的类脑局部避障算法容易陷入局部最优,无法到达预期训练效果的问题。

【技术实现步骤摘要】

本专利技术涉及一种智能体类脑局部避障方法、装置、存储介质和设备,属于智能体避障。


技术介绍

1、移动智能体作为类脑的一大应用方向,成为近年来的热点。智能体的自主局部避障是各类移动智能体的基础,具有广泛的应用场景。近年来,深度强化学习方案的性能已在各类实验中表现出优于基于模型的方案,但由于强化学习常常会在训练过程中陷入局部最优,因此在应用过程中无法展示其最佳策略。

2、在许多场景下智能体会陷入局部最优,如从环境中获得的反馈过于稀疏,甚至无法获取反馈;或拥有高维观测状态空间,使得智能体难以继续进行未知状态的探索。


技术实现思路

1、本专利技术的目的在于克服现有技术中的不足,提供一种智能体类脑局部避障方法、装置、存储介质和设备,通过引入自观随机最大熵提高了计算效率,避免智能体先入局部最优,解决了当前传统的类脑局部避障算法容易陷入局部最优,无法到达预期训练效果的问题。

2、为达到上述目的/为解决上述技术问题,本专利技术是采用下述技术方案实现的:

3、第一方面,本专利技术提供了一种智能体类脑局部避障方法,包括:

4、获取智能体的状态空间s;

5、确定智能体的自观随机最大熵和智能体在状态空间s中的奖励函数;

6、根据自观随机最大熵和奖励函数获取具有最大期望奖励的最优避障策略。

7、进一步地,所述确定智能体的自观随机最大熵,包括:

8、获取基于k-nn近邻算法熵估计器的随机编码器;

9、根据随机编码器获取智能体的自观随机最大熵。

10、更进一步地,所述k-nn近邻算法熵估计器,包括:

11、

12、其中:为样本xi在集合上的最近邻,n为集合中样本的数量,xi为集合中第i个样本;

13、ck为偏差修正项,ck=logk-ψ(k);ψ为双伽马函数;为伽马函数;q为x的维数;

14、更进一步地,所述根据随机编码器获取智能体的自观随机最大熵,包括:

15、

16、其中:rin(si)为自观随机最大熵;

17、yi为基于k-nn近邻算法熵估计器设置的随机编码器,用于计算状态空间s中不同状态间的距离;

18、yi=fθ(si),θ为可学习参数;

19、si为智能体在状态空间s中某时刻的状态;

20、为yi在n个样本特征{y1,y2,...,yn]中的k领域。

21、进一步地,所述奖励函数包括

22、

23、其中:

24、为总奖励;

25、rout(si,ai)为智能体在训练环境中得到的外部奖励;

26、rin(si)为自观随机最大熵;

27、si为智能体在状态空间s中某时刻的状态;

28、ai为智能体在状态si所做的动作;

29、α为超参数,用于控制智能体对自观随机最大熵的影响。

30、第二方面,本专利技术提供了一种智能体类脑局部避障装置,包括:

31、获取模块,用于获取智能体的状态空间s;

32、建模模块,用于确定智能体的自观随机最大熵和智能体在状态空间s中的奖励函数;

33、训练模块,用于根据自观随机最大熵和奖励函数获取具有最大期望奖励的最优避障策略。

34、第三方面,本专利技术提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述方法的步骤。

35、第四方面,本专利技术提供了一种计算设备,包括:

36、一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据上述的方法中的任一方法的指令。

37、与现有技术相比,本专利技术所达到的有益效果:

38、本专利技术利用智能体的自观随机最大熵和智能体在状态空间s中的奖励函数来获取具有最大期望奖励的最优避障策略,通过引入自观随机最大熵即可在不附加任何额外的模型便可有效捕获机器人在状态空间s中不同状态间的相似信息,在产生更稳定的训练奖励的同时,提高了计算效率,解决了当前传统的类脑局部避障算法容易陷入局部最优,无法到达预期训练效果的问题。

本文档来自技高网...

【技术保护点】

1.一种智能体类脑局部避障方法,其特征在于,包括:

2.根据权利要求1所述的智能体类脑局部避障方法,其特征在于,所述确定智能体的自观随机最大熵,包括:

3.根据权利要求2所述的智能体类脑局部避障方法,其特征在于,所述K-NN近邻算法熵估计器,包括:

4.根据权利要求2所述的智能体类脑局部避障方法,其特征在于,所述根据随机编码器获取智能体的自观随机最大熵,包括:

5.根据权利要求1所述的智能体类脑局部避障方法,其特征在于,所述奖励函数包括

6.一种智能体类脑局部避障装置,其特征在于,包括:

7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1~5任一项所述方法的步骤。

8.一种计算设备,其特征在于,包括:

【技术特征摘要】

1.一种智能体类脑局部避障方法,其特征在于,包括:

2.根据权利要求1所述的智能体类脑局部避障方法,其特征在于,所述确定智能体的自观随机最大熵,包括:

3.根据权利要求2所述的智能体类脑局部避障方法,其特征在于,所述k-nn近邻算法熵估计器,包括:

4.根据权利要求2所述的智能体类脑局部避障方法,其特征在于,所述根据随机编码器获取智...

【专利技术属性】
技术研发人员:杨宗林陶丽颖尚德龙周玉梅
申请(专利权)人:中科南京智能技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1