System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及强化学习,尤其涉及一种视觉变化环境的强化学习泛化方法及装置。
技术介绍
1、近年来,基于视觉输入的强化学习在各种应用中取得了巨大成功,如视频游戏、机器人操纵和自主导航等。然而,将当前环境学习到的策略推广到新的变化环境中仍然具有较大挑战性。例如,当与任务无关的视觉输入的变化很容易干扰智能体的注意力与决策动作,从而影响强化学习算法的性能。
技术实现思路
1、本专利技术提供一种视觉变化环境的强化学习泛化方法及装置,用以提高基于视觉输入的强化学习的泛化性。
2、本专利技术提供一种视觉变化环境的强化学习泛化方法,应用于基于视觉输入进行决策控制的智能体,其中,智能体的状态为视觉输入的图像数据,智能体的动作为控制目标的控制变量,包括:
3、将当前时刻智能体的原始状态、当前时刻智能体的动作、当前时刻智能体的环境奖励以及下一时刻智能体的原始状态关联存放于回放池中;
4、使用增强函数对所述回放池中的原始状态进行增强,得到所述回放池中的原始状态对应的增强状态;
5、对所述回放池中的原始状态以及所述增强状态分别加入显著性引导信息,并结合所述回放池中的数据以及所述增强状态获取智能体的价值一致性损失,基于所述价值一致性损失更新智能体的价值网络及表征网络;
6、获取所述回放池中的原始状态以及所述增强状态对应的智能体的策略一致性损失,基于所述策略一致性损失更新智能体的策略网络;
7、通过动力学模型获取所述回放池中的原始状态以及所
8、根据本专利技术提供的一种视觉变化环境的强化学习泛化方法,所述对所述回放池中的原始状态以及所述增强状态分别加入显著性引导信息,并结合所述回放池中的数据以及所述增强状态获取智能体的价值一致性损失,包括:
9、对所述回放池中的原始状态以及所述增强状态分别加入显著性引导信息,得到所述回放池中的原始状态对应的第一显著性图以及所述增强状态对应的第二显著性图;
10、根据所述回放池中的当前时刻智能体的原始状态以及当前时刻智能体的动作,得到智能体的第一预测价值;
11、根据所述回放池中的当前时刻智能体的环境奖励、下一时刻智能体的原始状态以及下一时刻智能体的动作,得到智能体的目标价值;
12、根据智能体的所述第一预测价值以及所述目标价值,得到智能体的原始状态价值损失;
13、根据当前时刻智能体的所述增强状态以及所述回放池中的当前时刻智能体的动作,得到智能体的第二预测价值;
14、根据智能体的所述第一预测价值以及所述目标价值,得到智能体的增强状态价值损失;
15、根据当前时刻智能体的所述第一显著性图以及所述回放池中的当前时刻智能体的动作,得到智能体的第三预测价值;
16、根据智能体的所述第一预测价值以及所述第三预测价值,得到智能体的原始状态显著性引导一致性损失;
17、根据当前时刻智能体的所述第二显著性图以及所述回放池中的当前时刻智能体的动作,得到智能体的第四预测价值;
18、根据智能体的所述第二预测价值以及所述第四预测价值,得到智能体的增强状态显著性引导一致性损失;
19、根据智能体的所述原始状态价值损失、所述增强状态价值损失、所述原始状态显著性引导一致性损失、所述增强状态显著性引导一致性损失以及价值一致性系数,得到智能体的价值一致性损失。
20、根据本专利技术提供的一种视觉变化环境的强化学习泛化方法,所述对所述回放池中的原始状态以及所述增强状态分别加入显著性引导信息,得到所述回放池中的原始状态对应的第一显著性图以及所述增强状态对应的第二显著性图,包括:
21、获取所述回放池中的原始状态对应的第一显著性梯度图;
22、将所述第一显著性梯度图中等于或高于预设阈值的像素值置为1,将小于预设阈值的像素值置为0,得到具有显著性的区域的第一显著性属性图,并将所述第一显著性属性图作为所述回放池中的原始状态的显著性引导信息,得到所述回放池中的原始状态对应的第一显著性图;
23、获取所述增强状态对应的第二显著性梯度图;
24、将所述第二显著性梯度图中等于或高于预设阈值的像素值置为1,将小于预设阈值的像素值置为0,得到具有显著性的区域的第二显著性属性图,并将所述第二显著性属性图作为所述增强状态的显著性引导信息,得到所述增强状态对应的第二显著性图。
25、根据本专利技术提供的一种视觉变化环境的强化学习泛化方法,所述获取所述回放池中的原始状态以及所述增强状态对应的智能体的策略一致性损失,包括:
26、获取所述回放池中的原始状态对应的策略损失;
27、获取所述回放池中的原始状态与所述增强状态之间的策略约束损失;
28、根据所述策略损失、所述策略约束损失以及策略一致性系数,得到智能体的策略一致性损失。
29、根据本专利技术提供的一种视觉变化环境的强化学习泛化方法,所述获取所述回放池中的原始状态以及所述增强状态对应的智能体的动力学损失,包括:
30、通过动力学模型,获取所述回放池中的原始状态对应的第一动力学损失;
31、通过动力学模型,获取所述增强状态对应的第二动力学损失;
32、根据所述第一动力学损失以及所述第二动力损失,得到智能体的动力学损失。
33、根据本专利技术提供的一种视觉变化环境的强化学习泛化方法,还包括:
34、初始化智能体的网络参数、增强函数、价值一致性系数以及策略一致性系数,所述网络参数包括价值网络参数、策略网络参数、表征网络参数及动力学模型参数。
35、本专利技术还提供一种视觉变化环境的强化学习泛化装置,应用于基于视觉输入进行决策控制的智能体,其中,智能体的状态为视觉输入的图像数据,智能体的动作为控制目标的控制变量,包括:
36、数据收集模块,用于将当前时刻智能体的原始状态、当前时刻智能体的动作、当前时刻智能体的环境奖励以及下一时刻智能体的原始状态关联存放于回放池中;
37、状态增强模块,用于使用增强函数对所述回放池中的原始状态进行增强,得到所述回放池中的原始状态对应的增强状态;
38、价值网络更新模块,用于对所述回放池中的原始状态以及所述增强状态分别加入显著性引导信息,并结合所述回放池中的数据以及所述增强状态获取价值一致性损失,基于所述价值一致性损失更新智能体的价值网络及表征网络;
39、策略网络更新模块,用于获取所述回放池中的原始状态以及所述增强状态对应的智能体的策略一致性损失,基于所述策略一致性损失更新智能体的策略网络;
40、表征网络更新模块,用于通过动力学模型获取所述回放池中的原始状态以及所述增强状态对应的智能体的动力学损失,基于所述动力学损失更新智能体的表征网络与动力学模型。
41、本专利技术本文档来自技高网...
【技术保护点】
1.一种视觉变化环境的强化学习泛化方法,应用于基于视觉输入进行决策控制的智能体,其中,智能体的状态为视觉输入的图像数据,智能体的动作为控制目标的控制变量,其特征在于,包括:
2.根据权利要求1所述的视觉变化环境的强化学习泛化方法,其特征在于,所述对所述回放池中的原始状态以及所述增强状态分别加入显著性引导信息,并结合所述回放池中的数据以及所述增强状态获取智能体的价值一致性损失,包括:
3.根据权利要求2所述的视觉变化环境的强化学习泛化方法,其特征在于,所述对所述回放池中的原始状态以及所述增强状态分别加入显著性引导信息,得到所述回放池中的原始状态对应的第一显著性图以及所述增强状态对应的第二显著性图,包括:
4.根据权利要求1所述的视觉变化环境的强化学习泛化方法,其特征在于,所述获取所述回放池中的原始状态以及所述增强状态对应的智能体的策略一致性损失,包括:
5.根据权利要求1所述的视觉变化环境的强化学习泛化方法,其特征在于,所述获取所述回放池中的原始状态以及所述增强状态对应的智能体的动力学损失,包括:
6.根据权利要求1至5任
7.一种视觉变化环境的强化学习泛化装置,应用于基于视觉输入进行决策控制的智能体,其中,智能体的状态为视觉输入的图像数据,智能体的动作为控制目标的控制变量,其特征在于,包括:
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述视觉变化环境的强化学习泛化方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述视觉变化环境的强化学习泛化方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述视觉变化环境的强化学习泛化方法的步骤。
...【技术特征摘要】
1.一种视觉变化环境的强化学习泛化方法,应用于基于视觉输入进行决策控制的智能体,其中,智能体的状态为视觉输入的图像数据,智能体的动作为控制目标的控制变量,其特征在于,包括:
2.根据权利要求1所述的视觉变化环境的强化学习泛化方法,其特征在于,所述对所述回放池中的原始状态以及所述增强状态分别加入显著性引导信息,并结合所述回放池中的数据以及所述增强状态获取智能体的价值一致性损失,包括:
3.根据权利要求2所述的视觉变化环境的强化学习泛化方法,其特征在于,所述对所述回放池中的原始状态以及所述增强状态分别加入显著性引导信息,得到所述回放池中的原始状态对应的第一显著性图以及所述增强状态对应的第二显著性图,包括:
4.根据权利要求1所述的视觉变化环境的强化学习泛化方法,其特征在于,所述获取所述回放池中的原始状态以及所述增强状态对应的智能体的策略一致性损失,包括:
5.根据权利要求1所述的视觉变化环境的强化学习泛化方法,其特征在于,所述获取所述回放池中...
【专利技术属性】
技术研发人员:张启超,孙敬博,赵冬斌,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。