System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及强化学习,特别是一种面向机器人的部分观测强化学习方法、装置和设备。
技术介绍
1、深度强化学习(drl)是深度学习与强化学习相结合的产物,它具有深度学习感知和表征的能力以及强化学习决策的能力,能够弥补经典强化学习在估计价值函数和拟合策略函数方面的不足之处。目前,强化学习的主要成果仍集中在游戏等虚拟环境,这是由于训练强化学习智能体所构建的虚拟环境的观察空间具备观测准确和数据集生成廉价的优势。
2、然而,当强化学习应用在现实世界的场景中时,环境通常是随机的、复杂的和部分可观测的。具体而言,在真实场景中往往会因为各种原因而导致所采集得到的状态信息含有噪声(如传感器对速度、位移的测量常常存在误差),即部分观测马尔科夫环境。而这样不准确的状态信息往往会导致智能体走向错误的决策路线,最终导致模型的失败。因此,有必要开发一种面向机器人的部分观测强化学习方法、装置和设备,从而在采集的信息存在噪声和信息不完整的情况下,实现对执行动作的准确决策。
技术实现思路
1、鉴于上述问题,本申请实施例提供了一种面向机器人的部分观测强化学习方法、装置和设备,以便克服上述问题或者至少部分地解决上述问题。
2、本申请实施例的第一方面,提供了一种面向机器人的部分观测强化学习方法,应用于机器人,所述方法包括:
3、获取第一训练数据集,所述第一训练数据集中的每个第一训练数据为,在部分观测马尔科夫环境中获取的,不同时刻的观测信息和对应的历史观测信息序列;所述历史观测信息序列表示,
4、将第t时刻的第一训练数据输入特征提取网络,进行特征提取,得到第t时刻的当前观测特征和历史观测特征序列;
5、将所述第t时刻的当前观测特征和历史观测特征序列输入记忆模块,得到第t时刻的置信状态;
6、根据所述第t时刻的置信状态,预测得到第t+1时刻的第一候选置信状态;
7、将第t+1时刻的第一训练数据输入所述特征提取网络,进行特征提取,得到第t+1时刻的当前观测特征,和历史观测特征序列;
8、将所述第t+1时刻的当前观测特征和历史观测特征序列输入目标记忆模块,得到第t+1时刻的第二候选置信状态;
9、根据第t+1时刻的所述第一候选置信状态和所述第二候选置信状态,计算mse损失函数值;
10、根据所述mse损失函数值,对所述记忆模块和执行者网络进行参数更新;
11、重新选择所述第一训练数据,进行迭代训练,直至所述mse损失函数值达到收敛状态,或达到预设训练次数,得到训练完成的所述记忆模块和所述执行者网络;
12、利用训练完成的所述记忆模块和所述执行者网络,根据当前时刻的观测信息,确定当前时刻的所述机器人的执行动作。
13、本申请实施例第二方面还提出了一种面向机器人的部分观测强化学习装置,用于执行第一方面所述的面向机器人的部分观测强化学习方法,所述装置包括:
14、第一训练数据集获取模块,用于获取第一训练数据集,所述第一训练数据集中的每个第一训练数据为,在部分观测马尔科夫环境中获取的,不同时刻的观测信息和对应的历史观测信息序列;所述历史观测信息序列表示,前n个时刻的观测信息按照时间顺序组成的序列;
15、第一特征提取模块,用于将第t时刻的第一训练数据输入特征提取网络,进行特征提取,得到第t时刻的当前观测特征和历史观测特征序列;
16、第一置信状态生成模块,用于将所述第t时刻的当前观测特征和历史观测特征序列输入记忆模块,得到第t时刻的置信状态;
17、第一置信状态预测模块,用于根据所述第t时刻的置信状态,预测得到第t+1时刻的第一候选置信状态;
18、第二特征提取模块,用于将第t+1时刻的第一训练数据输入所述特征提取网络,进行特征提取,得到第t+1时刻的当前观测特征,和历史观测特征序列;
19、第二置信状态生成模块,用于将所述第t+1时刻的当前观测特征和历史观测特征序列输入目标记忆模块,得到第t+1时刻的第二候选置信状态;
20、损失函数计算模块,用于根据第t+1时刻的所述第一候选置信状态和所述第二候选置信状态,计算mse损失函数值;
21、参数更新模块,用于根据所述mse损失函数值,对所述记忆模块和执行者网络进行参数更新;
22、训练结束模块,用于重新选择所述第一训练数据,进行迭代训练,直至所述mse损失函数值达到收敛状态,或达到预设训练次数,得到训练完成的所述记忆模块和所述执行者网络;
23、执行动作预测模块,用于利用训练完成的所述记忆模块和所述执行者网络,根据当前时刻的观测信息,确定当前时刻的所述机器人的执行动作。
24、本申请实施例第三方面还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上的计算机程序,所述处理器执行所述计算机程序以实现本申请实施例第一方面所述的面向机器人的部分观测强化学习方法中的步骤。
25、本申请实施例第四方面还提供了一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现本申请实施例第一方面所述的面向机器人的部分观测强化学习方法中的步骤。
26、本申请实施例第五方面还提供了一种计算机程序产品,所述计算机程序产品在电子设备上运行时,使处理器执行时实现如本申请实施例第一方面所述的面向机器人的部分观测强化学习方法中的步骤。
27、本申请实施例提供的一种面向机器人的部分观测强化学习方法,应用于机器人,该方法包括:获取第一训练数据集,所述第一训练数据集中的每个第一训练数据为,在部分观测马尔科夫环境中获取的,不同时刻的观测信息和对应的历史观测信息序列;所述历史观测信息序列表示,前n个时刻的观测信息按照时间顺序组成的序列;将第t时刻的第一训练数据输入特征提取网络,进行特征提取,得到第t时刻的当前观测特征和历史观测特征序列;将所述第t时刻的当前观测特征和历史观测特征序列输入记忆模块,得到第t时刻的置信状态;根据所述第t时刻的置信状态,预测得到第t+1时刻的第一候选置信状态;将第t+1时刻的第一训练数据输入所述特征提取网络,进行特征提取,得到第t+1时刻的当前观测特征,和历史观测特征序列;将所述第t+1时刻的当前观测特征和历史观测特征序列输入目标记忆模块,得到第t+1时刻的第二候选置信状态;根据第t+1时刻的所述第一候选置信状态和所述第二候选置信状态,计算mse损失函数值;根据所述mse损失函数值,对所述记忆模块和执行者网络进行参数更新;重新选择所述第一训练数据,进行迭代训练,直至所述mse损失函数值达到收敛状态,或达到预设训练次数,得到训练完成的所述记忆模块和所述执行者网络;利用训练完成的所述记忆模块和所述执行者网络,根据当前时刻的观测信息,确定当前时刻的所述机器人的执行动作。
28、具体的有益效果在于:本申请实施例提出了采用对比性辅助任务来本文档来自技高网...
【技术保护点】
1.一种面向机器人的部分观测强化学习方法,其特征在于,应用于机器人,所述方法包括:
2.根据权利要求1所述的面向机器人的部分观测强化学习方法,其特征在于,所述利用训练完成的所述记忆模块和所述执行者网络,根据当前时刻的观测信息,确定当前时刻的所述机器人的执行动作,包括:
3.根据权利要求1所述的面向机器人的部分观测强化学习方法,其特征在于,所述目标记忆模块的初始化参数与所述记忆模块相同,所述训练过程还包括:
4.根据权利要求2所述的面向机器人的部分观测强化学习方法,其特征在于,所述根据所述第t时刻的置信状态,预测得到第t+1时刻的第一候选置信状态,包括:
5.根据权利要求2所述的面向机器人的部分观测强化学习方法,其特征在于,所述记忆模块和所述目标记忆模块包括长短期记忆网络,所述长短期记忆网络由全连接层-LSTM层-全连接层构成,各层之间激活函数为ReLU函数。
6.根据权利要求2所述的面向机器人的部分观测强化学习方法,其特征在于,所述根据第t+1时刻的所述第一候选置信状态和所述第二候选置信状态,计算MSE损失函数,包括:<
...【技术特征摘要】
1.一种面向机器人的部分观测强化学习方法,其特征在于,应用于机器人,所述方法包括:
2.根据权利要求1所述的面向机器人的部分观测强化学习方法,其特征在于,所述利用训练完成的所述记忆模块和所述执行者网络,根据当前时刻的观测信息,确定当前时刻的所述机器人的执行动作,包括:
3.根据权利要求1所述的面向机器人的部分观测强化学习方法,其特征在于,所述目标记忆模块的初始化参数与所述记忆模块相同,所述训练过程还包括:
4.根据权利要求2所述的面向机器人的部分观测强化学习方法,其特征在于,所述根据所述第t时刻的置信状态,预测得到第t+1时刻的第一候选置信状态,包括:
5.根据权利要求2所述的面向机器人的部分观测强化学习方法,其特征在于,所述记忆模块和所述目标记忆模块包括长短期记忆网络,所述长短期记忆网络由全连接层-lstm层-全连接层构成,各层之间激活函数为relu函数。
6.根据权利要求2所述的...
【专利技术属性】
技术研发人员:宋士吉,王洹芊,周宁,
申请(专利权)人:南方海洋科学与工程广东省实验室珠海,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。