System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本说明书涉及一种强化学习。
技术介绍
1、在强化学习系统中,代理通过执行由强化学习系统响应于接收到表征环境的当前状态的观察结果而选择的动作来与环境交互。
2、一些强化学习系统根据神经网络的输出来选择要由代理响应于接收到给定观察结果而执行的动作。
3、神经网络是采用非线性单元的一个或多个层针对接收到的输入来预测输出的机器学习模型。一些神经网络是除了输出层之外还包括一个或多个隐藏层的深度神经网络。每个隐藏层的输出被用作到网络中的下一层(即,下一个隐藏层或输出层)的输入。网络的每个层根据相应的一组参数的当前值从接收到的输入来生成输出。
技术实现思路
1、一般而言,本说明书中描述的主题的一个创新方面能够以用于对神经网络进行训练的方法加以实施,所述神经网络用于选择由与环境交互的强化学习代理通过执行使所述环境转变状态的动作而执行的动作,其中所述方法包括以下步骤的动作:维持重放存储器(replay memory),所述重放存储器存储作为所述强化学习代理与所述环境交互的结果而生成的经验数据块,其中,所述经验数据块各自具有相应的预期学习进展量度(measure),所述预期学习进展量度是如果在所述经验数据块上对所述神经网络进行训练则在所述神经网络的训练中进行的预期进展量的量度;通过对具有相对较高的预期学习进展量度的经验数据块进行优先级排序以供选择来从所述重放存储器中选择经验数据块;以及在所选择的经验数据块上对所述神经网络进行训练。
2、这个方面的其它实施例包括相对应
3、实施方式能够包括以下特征中的一个或多个。在一些实施方式中,选择经验数据块包括:(i)确定用于每个经验数据块的相应的概率,使得与具有相对较低的预期学习进展量度的经验数据块相比,具有较高的预期学习进展量度的经验数据块具有较高的概率;以及(ii)根据所确定的概率来对经验数据块进行采样。
4、在一些实施方式中,经验数据块i的概率p(i)满足:
5、
6、其中,α是预定常数,k的范围跨越所述重放存储器中的所述经验数据块,并且pi是从针对所述经验数据块i的所述预期学习进展量度取得的用于所述经验数据块i的优先级。
7、在一些实施方式中,所述优先级是所述预期学习量度加上常数值。在一些实施方式中,所述优先级是具有预定正值作为分子以及所述经验数据块i的排名作为分母的分数,所述排名在根据其预期学习进展量度对所述重放存储器中的所述经验数据块的排名中。在一些实施方式中,所述优先级对于仍然未被用在训练中的经验数据块被设置为最大值。
8、在一些实施方式中,每个经验数据块是经验元组,所述经验元组包括表征所述环境的相应的当前状态的相应的当前观察结果、由所述代理响应于所述当前观察结果而执行的相应的当前动作、表征所述环境的相应的下一个状态的相应的下一状态以及响应于所述代理执行所述当前动作而接收到的奖励。
9、在一些实施方式中,在所选择的经验数据块上对所述神经网络进行训练包括:针对所选择的经验元组确定时间差学习误差;以及在调整所述神经网络的参数的值中使用所述时间差学习误差。
10、在一些实施方式中,在调整所述参数的值中使用所述时间差学习误差包括:使用针对所选择的经验元组的所述预期学习进展量度来确定用于所述时间差学习误差的权重;使用所述权重来调整所述时间差学习误差;以及使用调整后的时间差学习误差作为用于调整所述神经网络的参数的值的目标误差。
11、在一些实施方式中,所述方法还包括在所述神经网络的训练期间使在计算所述权重时使用的指数退火。
12、在一些实施方式中,针对所述重放存储器中的每个经验元组的所述预期学习进展量度是在对所述神经网络进行训练中使用所述经验元组的在前时间针对所述经验元组确定的时间差学习误差的绝对值。
13、在一些实施方式中,针对所述重放存储器中的每个经验元组的所述预期学习进展量度是在对所述神经网络进行训练中使用所述经验元组的在前时间针对所述经验元组确定的时间差学习误差的绝对值的导数。
14、在一些实施方式中,针对所述重放存储器中的每个经验元组的所述预期学习进展量度是通过使用所述经验元组来对所述神经网络进行训练的诱发权重变化的范数。
15、在一些实施方式中,所述方法还包括使用所述预期学习进展量度来确定何时从所述重放存储器中删除经验数据块。
16、本说明书中描述的主题能够被实现在特定实施例中以便实现以下优点中的一个或多个。能够以增加为了对神经网络进行训练而选择的数据的值的方式选择来自重放存储器的训练数据。这进而能够提高在选择要由代理执行的动作中使用的神经网络的训练的速度并且减少有效地对那些神经网络进行训练所需的训练数据的量。因此,能够减少对神经网络的训练所必需的计算资源的量。例如,能够减少对存储训练数据所需要的存储器的量,能够减少由训练过程使用的处理资源的量,或者兼而有之。对于比较难以训练的复杂神经网络或者为了对神经网络进行训练以选择要由执行复杂强化学习任务的代理执行的动作,增加神经网络的训练的速度可能是特别显著的。
17、在下面的附图和描述中阐述了本说明书的主题的一个或多个实施例的细节。主题的其它特征、方面和优点将根据本说明书、附图和权利要求书变得显而易见。
本文档来自技高网...【技术保护点】
1.一种用于训练神经网络的方法,所述神经网络用于选择由强化学习代理执行的动作,所述强化学习代理通过执行使所述环境转变状态的动作与所述环境交互,所述方法包括:
2.根据权利要求1所述的方法,其中:
3.根据权利要求2所述的方法进一步包括:
4.根据权利要求1所述的方法,其中,通过对具有相对较高的预期学习进展量度的经验数据块进行优先级排序以供选择来从所述重放存储器中选择经验数据块包括:
5.根据权利要求4所述的方法,其中,基于所述经验数据块的所述相应的预期学习进展量度来确定所述重放存储器中的所述经验数据块中的每个经验数据块的相应的概率包括:
6.根据权利要求5所述的方法,其中,经验数据块i的概率P(i)满足:
7.根据权利要求6所述的方法,其中,所述优先级是所述预期学习进展量度加上常数值。
8.根据权利要求6所述的方法,其中,所述优先级是具有预定正值作为分子以及所述经验数据块i的排名作为分母的分数,所述排名在根据其预期学习进展量度对所述重放存储器中的所述经验数据块的排名中。
9.根据权利要
10.根据权利要求1所述的方法,其中,每个经验数据块进一步包括表征所述环境的相应的下一个状态的相应的下一状态以及响应于所述代理执行所述当前动作而接收到的奖励。
11.根据权利要求2所述的方法,其中,在所选择的经验数据块上对所述神经网络进行训练进一步包括:
12.根据权利要求11所述的方法,其中,在调整所述参数的值中使用所述更新的误差包括:
13.根据权利要求12所述的方法,进一步包括:在所述神经网络的训练期间使在计算所述权重中使用的指数退火。
14.根据权利要求10所述的方法,其中,针对所述重放存储器中的每个经验元组的所述预期学习进展量度是在对所述神经网络进行训练中使用所述经验元组的在前时间针对所述经验元组确定的时间差学习误差的绝对值的导数。
15.根据权利要求10所述的方法,其中,针对所述重放存储器中的每个经验元组的所述预期学习进展量度是通过使用所述经验元组来对所述神经网络进行训练进行的诱发权重变化的范数。
16.一种系统,所述系统包括一个或多个计算机和存储指令的一个或多个存储设备,所述指令在由所述一个或多个计算机执行时可操作为使所述一个或多个计算机执行用于训练神经网络的操作,所述神经网络用于选择由强化学习代理执行的动作,所述强化学习代理通过执行使环境转变状态的动作与所述环境交互,所述操作包括:
17.根据权利要求16所述的系统,其中,在所选择的经验数据块上训练所述神经网络包括:
18.根据权利要求17所述的系统,其中,所述操作进一步包括:
19.根据权利要求16所述的系统,其中,通过对具有相对较高的预期学习进展量度的经验数据块进行优先级排序以供选择来从所述重放存储器中选择经验数据块包括:
20.根据权利要求19所述的系统,其中,基于所述经验数据块的所述相应的预期学习进展量度来确定所述重放存储器中的所述经验数据块中的每个经验数据块的相应的概率包括:
21.一种编码有指令的非暂时性计算机存储介质,所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行用于训练神经网络的操作,所述神经网络用于选择由强化学习代理执行的动作,所述强化学习代理通过执行使环境转变状态的动作与所述环境交互,所述操作包括:
...【技术特征摘要】
1.一种用于训练神经网络的方法,所述神经网络用于选择由强化学习代理执行的动作,所述强化学习代理通过执行使所述环境转变状态的动作与所述环境交互,所述方法包括:
2.根据权利要求1所述的方法,其中:
3.根据权利要求2所述的方法进一步包括:
4.根据权利要求1所述的方法,其中,通过对具有相对较高的预期学习进展量度的经验数据块进行优先级排序以供选择来从所述重放存储器中选择经验数据块包括:
5.根据权利要求4所述的方法,其中,基于所述经验数据块的所述相应的预期学习进展量度来确定所述重放存储器中的所述经验数据块中的每个经验数据块的相应的概率包括:
6.根据权利要求5所述的方法,其中,经验数据块i的概率p(i)满足:
7.根据权利要求6所述的方法,其中,所述优先级是所述预期学习进展量度加上常数值。
8.根据权利要求6所述的方法,其中,所述优先级是具有预定正值作为分子以及所述经验数据块i的排名作为分母的分数,所述排名在根据其预期学习进展量度对所述重放存储器中的所述经验数据块的排名中。
9.根据权利要求6所述的方法,其中,所述优先级对于仍然未被用在训练中的经验数据块被设置为最大值。
10.根据权利要求1所述的方法,其中,每个经验数据块进一步包括表征所述环境的相应的下一个状态的相应的下一状态以及响应于所述代理执行所述当前动作而接收到的奖励。
11.根据权利要求2所述的方法,其中,在所选择的经验数据块上对所述神经网络进行训练进一步包括:
12.根据权利要求11所述的方法,其中,在调整所述参数的值中使用所述更新的误差包括:
13.根据权利要求12所述的方法,进一步包括:在所述神经网...
【专利技术属性】
技术研发人员:汤姆·绍尔,关小龙,大卫·西尔韦,
申请(专利权)人:渊慧科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。