当前位置: 首页 > 专利查询>苏州大学专利>正文

一种基于飞行策略的智能体随机探索方法技术

技术编号:34488461 阅读:18 留言:0更新日期:2022-08-10 09:06
本发明专利技术公开的一种基于飞行策略的智能体随机探索方法,包括通过世界环境采集智能体当前的信息,对图像或向量信息进行处理,获得量化后的机器人的位置信息、障碍物分布信息,以及给定目的地信息,对通过数据量化分析,获得距离目的地的差值,以智能体所在的位置作为智能体的状态s,智能体的运动方向作为动作a;根据智能体学习过程确定的到达目的地的运动策略,实现智能体的运动控制。实现智能体的运动控制。实现智能体的运动控制。

【技术实现步骤摘要】
一种基于飞行策略的智能体随机探索方法


[0001]本专利技术涉及智能体运动控制领域,更具体的,涉及一种基于飞行策略的智能体随机探索方法。

技术介绍

[0002]随着深度强化学习智能体研究的进展,提出更有效地探索方法成为了智能体探索的重要关键。
[0003]例如,中国专利技术专利申请CN20191054958.6X公开了一种基强化学习的高效探索方法,其中公开了一种强化学习的高效探索方法,该方法的步骤如下:1)预训练计数估计函数;2)利用预训练的计数估计函数进行强化学习的高效探索。本专利技术主要针对强化学习中探索与利用的平衡问题,在连续空间任务中,通过预训练计数估计函数估计智能体所遇到的状态的出现次数,利用状态的出现次数计算奖赏,通过奖赏引导智能体探索那些较少遇到的状态从而实现高效探索。本专利技术通过使用独立的探索策略处理奖赏信号,避免了奖赏信号对智能体行动策略的影响,使得探索过程更稳定。
[0004]中国专利技术专利申请CN201810071032.9公开了一种强化学习任务中高纬连续动作空间离散化探索方法与流程,公开了一种强化学习任务中高维连续动作空间离散化探索方法,通过量化操作将连续的动作空间转化成一个离散的动作空间,然后通过深度神经网络实现的自编码器对离散动作空间中的字典值进行降维编码并计数,再统计一定次数的策略更新中各字典值对应编码码字的出现次数,并将极少出现的字典值按概率从动作字典中移除,从而不断去除动作字典中的冗余,进而提高智能体策略更新时的搜索效率。
[0005]深度强化学习是一种用于解决目标导向序贯决策问题的方法,其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。该方法具有普适性,因此在其他许多领域都有研究,例如博弈论、控制论、运筹学、信息论、模拟优化方法、多主体系统学习、群体智能、统计学以及遗传算法。近年来,作为机器学习领域的一个重要研究热点,DRL已经广泛应用于游戏博弈、机器人控制、模拟仿真等领域,逐渐成为机器学习领域的重要分支。
[0006]在多数强化学习任务中,环境的真实值函数不宜得到,其分布非线性且符合多峰分布,因此智能体在训练过程中极易陷入其中一个峰值,收敛至局部最优。在部分任务中,该问题直接导致了智能体的训练失败,因此缓解智能体在多峰环境中的探索问题是强化学习的挑战之一。
[0007]探索和利用的平衡问题是深度强化学习中的一个重要的挑战。尽管利用对于智能体能否获得更高的即时奖励至关重要,但只有通过足够的探索,智能体才能获得更高的累计奖赏。强化学习任务的值函数符合多峰分布,在该前提下,智能体只有探索更多的峰值才可能学习到更好的策略。然而,增加探索性意味着更长的收敛时间,在现有的问题和探索策略下,深度强化学习算法需要非常高的成本才能探索到大多数峰值。ε

greedy是一种简单通用的探索策略,该策略有一定概率采取随机动作,其余情况采取智能体策略输出的动作。
这种探索策略的优势在于实现简单,在环境相对简单、奖赏设置较好的任务中非常有效,但对于环境空间维度较大的任务,ε

greedy策略无法进行有效探索,即智能体在于环境交互时无法越过更多的值函数高峰,这会导致智能体策略收敛至局部最优,因此寻找更有效的探索策略是解决多维度状态空间的首要任务。

技术实现思路

[0008]为了解决上述至少一个技术问题,本专利技术提出了一种基于飞行策略的智能体随机探索方法。
[0009]本专利技术第一方面提供了一种基于飞行策略的智能体随机探索方法,包括如下步骤:
[0010]S1,通过世界环境采集智能体当前的信息,对图像或向量信息进行处理,获得量化后的机器人的位置信息(机器人当前所在位置:用多维矩阵表示,机器人附近障碍物用多维矩阵表示)、障碍物分布信息,以及给定目的地信息;
[0011]S2,对通过数据量化分析,获得距离目的地的差值,以智能体所在的位置作为智能体的状态s,智能体的运动方向作为动作a;
[0012]S3,当前状态s下从策略网络中选择对应的当前动作a,根据飞行方法选择飞行步长Step,执行动作a,得到相应奖赏r并且迁移到下一状态s',再根据行为策略μ(a|s)选择下一状态s'对应的下一动作a',重复上述飞行步长Step次;
[0013]S4,根据智能体评估函数Q
maxa

(s
t
,a

)得到智能体当前状态下最优动作的值函数大小(值函数表示为智能体当前状态下的得分),生成路径调整条件,根据路径调整条件进行路径调整;
[0014]S5,根据路径调整后的动作a
fly
,将经验(s
t
,a
t
,r
t+1
,s
t+1
,d)进行存放,其中d为状态终止判定,根据环境所给予的反馈,代表智能体无法在环境中继续执行动作;
[0015]S6,从步骤(5)中存放经验的经验池采样训练数据,从环境中获得采样样本e=(s
i
,a
i
,r
i+1
,s
i+1
),计算当前状态值函数的预测值y
i

[0016]S7根据步骤S3至步骤S6中学习到的信息,进行策略网络的迭代更新,根据损失函数L
t

t
)=E[δ2]计算其梯度,该损失函数是预测值y
i
与对应真实值之间的集合距离,梯度表示预测值网络各参数的更新方向,作用是通过多次的梯度下降法使智能体网络收敛,利用梯度下降法的公式更新参数:
[0017]S8根据上述S1

S7智能体学习过程,确定到达目的地的运动策略,即智能体在每个状态的动作值(动作值通常用离散值表示),实现智能体的运动控制。
[0018]本专利技术一个较佳实施例中,步骤S3中飞行步长计算公式如下:
[0019]本专利技术一个较佳实施例中,步骤S3中行为策略(网络输出的智能体动作值)μ(a|s)在初始状态(即智能体未训练时)采用完全随机策略,即动作选取全随机,没有经过网络输出,任一状态下所有动作的选择概率均相等且和为1,该目的是为了增加智能体的探索能
力。
[0020]本专利技术一个较佳实施例中,步骤S3中,β为对称L
é
vy稳定分布系数,其中S
max
为飞行最大步长,u和v均采样于正态分布:σ
v
=1,
[0021]其中Γ(1+β)为Gamma函数,该步长分布遵循期望L
é
vy中的|s|≥|s0|,其中s0为最小步长,在ALF探索策略中设置s0=1。
[0022]本专利技术一个较佳实施例中,步骤S4中,其中Q(s
t
,a
fly
)为保持飞行动作的值函数,而Q
maxa
...

【技术保护点】

【技术特征摘要】
1.一种基于飞行策略的智能体随机探索方法,其特征在于,包括如下步骤:S1,通过世界环境采集智能体当前的信息,对图像或向量信息进行处理,获得量化后的机器人的位置信息、障碍物分布信息,以及给定目的地信息;S2,对通过数据量化分析,获得距离目的地的差值,以智能体所在的位置作为智能体的状态s,智能体的运动方向作为动作a;S3,当前状态s下从策略网络中选择对应的当前动作a,根据飞行方法选择飞行步长Step,执行动作a,得到相应奖赏r并且迁移到下一状态s',再根据行为策略μ(a|s)选择下一状态s'对应的下一动作a',重复上述飞行步长Step次;S4,根据智能体评估函数Q
maxa

(s
t
,a

)得到智能体当前状态下最优动作的值函数大小,生成路径调整条件,根据路径调整条件进行路径调整;S5,根据路径调整后的动作a
fly
,将经验(s
t
,a
t
,r
t+1
,s
t+1
,d)进行存放,其中d为状态终止判定,根据环境所给予的反馈,代表智能体无法在环境中继续执行动作;S6,从步骤(5)中存放经验的经验池采样训练数据,从环境中获得采样样本e=(s
i
,a
i
,r
i+1
,s
i+1
),计算当前状态值函数的预测值y
i
,;S7根据步骤S3至步骤S6中学习到的信息,进行策略网络的迭代更新,根据损失函数L
t

t
)=E[δ2]计算其梯度,该损失函数是预测值y
i
与对应真实值之间的集合距离,梯度表示预测值网络各参数的更新方向,作用是通过多次的梯度下降法使智能体网络收敛,利用梯度下降法的公式更新参数:S8根据上述S1

S7智能体学习过程,确定到达目的地的运动策略,即智能体在每个状态的动作值,实现智能体的运动控制。2.根据权利要求1所述的一种基于飞行策略的智能体随机探索方法,其特征在于,步骤S3中飞行步长计算公式如下:3.根据权利要求1所述的一种基于飞行策略的智能体随机探索方法,其特征在于:步骤S3中行为策略μ(a|s)在初始状态采用完全随机策略,任一状态下所有动作的选择概...

【专利技术属性】
技术研发人员:刘全顾子贤朱斐
申请(专利权)人:苏州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1