通过整合代理运动和优化预测目标来生成空间嵌入制造技术

技术编号:35504921 阅读:24 留言:0更新日期:2022-11-09 14:16
用于训练配置为处理表征与环境互动的代理的运动的数据以生成空间嵌入的空间嵌入神经网络的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。在一个方面上,该方法包括:使用空间嵌入神经网络处理表征在当前时间步长中的代理在环境中的运动的数据,以生成当前时间步长的当前空间嵌入;确定外部存储器中的多个槽位中的每一个的预测评分和目标评分,其中,每个槽位存储:(i)表征环境状态的观察的表示和(ii)空间嵌入;以及,基于预测评分和目标评分之间的误差,确定对一组空间嵌入神经网络参数的值的更新。神经网络参数的值的更新。神经网络参数的值的更新。

【技术实现步骤摘要】
【国外来华专利技术】通过整合代理运动和优化预测目标来生成空间嵌入

技术介绍

[0001]本说明书涉及使用机器学习模型处理数据。
[0002]机器学习模型接收输入,并且基于所接收的输入来生成输出,例如,预测输出。一些机器学习模型是参数化模型,并且基于所接收的输入并基于模型的参数的值来生成输出。
[0003]一些机器学习模型是采用模型的多个层来针对所接收的输入生成输出的深度模型。例如,深度神经网络是包括输出层和各自向所接收的输入应用非线性转换以生成输出的一个或多个隐藏层的深度机器学习模型。

技术实现思路

[0004]本说明书一般描述一种实现为在一个或多个位置中的一个或多个计算机上的计算机程序的系统和方法,其用于训练具有一组(set)空间嵌入神经网络参数的空间嵌入神经网络。空间嵌入神经网络被配置为处理表征与环境互动的代理的运动的数据,以生成空间嵌入。
[0005]如贯穿本说明书使用的,“嵌入”是指数值的有序集合,例如,数值的向量或矩阵。
[0006]更详细地说,示例方法包括:对于多个时间步长中的每一个,使用空间嵌入神经网络(例如,循环神经网络(recurrent neural network))获得(例如,输入)并处理表征在当前时间步长中的代理在环境中的运动的数据,以生成当前时间步长的当前空间嵌入。该方法确定外部存储器(memory)中的多个槽位(slot)中的每一个的预测评分和目标评分,其中,每个槽位存储:(i)表征环境状态的观察的表示和(ii)空间嵌入。每个槽位的预测评分测量(i)当前空间嵌入和(ii)与槽位对应的空间嵌入之间的相似度。每个槽位的目标评分测量(i)表征在当前时间步长中的环境状态的当前观察和(ii)与槽位对应的观察之间的相似度。该方法基于预测评分和目标评分之间的误差,确定对一组空间嵌入神经网络参数的值的更新。
[0007]在各实施方式中,该方法还包括:对于多个时间步长中的每一个,使用动作选择神经网络处理当前观察和当前空间嵌入,以生成动作选择输出,并且使用动作选择输出选择在当前时间步长中由代理执行的动作。
[0008]在一些实施方式中,环境是真实世界环境,代理是在真实世界环境中导航的机器代理,并且动作控制代理在环境中的移动,即,动作选择系统选择动作以使代理能够执行涉及在环境中导航的任务。
[0009]在一些实施方式中,环境是真实世界环境,并且代理是机器代理,或者环境是模拟环境,并且代理被实现为一个或多个计算机程序。该方法可以包括:使用经训练的空间嵌入神经网络来使机器代理能够在新的真实世界环境中导航。也就是说,空间嵌入神经网络可以在真实世界中或在模拟中训练,但是经训练的空间嵌入神经网络可以在真实世界中使用。
[0010]在新的真实世界环境中导航可以包括:使用经训练的空间嵌入神经网络处理表征
机器代理在真实世界环境中的运动的数据,以生成空间嵌入。动作选择系统(特别是动作选择系统的动作选择神经网络)可以用于处理空间嵌入来选择由机器代理执行的动作,从而控制代理在新的真实世界环境中的运动,以在新的真实世界环境中导航。
[0011]根据一个方面,提供了一种由一个或多个数据处理装置执行的方法,其用于训练具有一组空间嵌入神经网络参数的空间嵌入神经网络,其被配置为处理表征与环境互动的代理的运动的数据,以生成空间嵌入。该方法包括:对于多个时间步长中的每一个:使用空间嵌入神经网络处理表征在当前时间步长中的代理在环境中的运动的数据,以生成当前时间步长的当前空间嵌入;确定外部存储器中的多个槽位中的每一个的预测评分和目标评分,其中,每个槽位存储:(i)表征环境状态的观察的表示和(ii)空间嵌入,其中,每个槽位的预测评分测量(i)当前空间嵌入和(ii)与槽位对应的空间嵌入之间的相似度,其中,每个槽位的目标评分测量(i)表征在当前时间步长中的环境状态的当前观察和(ii)与槽位对应的观察之间的相似度;以及,基于预测评分和目标评分之间的误差,确定对一组空间嵌入神经网络参数的值的更新。
[0012]在一些实施方式中,表征在当前时间步长中的代理在环境中的运动的数据包括以下各项中的一个或多个:表征在当前时间步长中的代理速度的速度数据、表征在当前时间步长中的代理角速度的角速度数据、或表征在当前时间步长中的代理平移速度的平移速度数据。
[0013]在一些实施方式中,表征在当前时间步长中的环境状态的当前观察包括图像。
[0014]在一些实施方式中,图像在当前时间步长中在代理的视角下捕捉。
[0015]在一些实施方式中,确定外部存储器中的每个槽位的目标评分包括:获得表征当前环境状态的当前观察和与槽位对应的观察的相应嵌入;以及,基于(i)表征当前环境状态的当前观察的嵌入和(ii)与槽位对应的观察的嵌入之间的相似度测量,确定目标评分。
[0016]在一些实施方式中,获得当前观察的嵌入包括:使用嵌入神经网络处理当前观察。
[0017]在一些实施方式中,预测评分和目标评分之间的误差包括预测评分和目标评分之间的交叉熵误差。
[0018]在一些实施方式中,该方法还包括:基于预测评分和目标评分之间的误差,确定对存储在外部存储器中的空间嵌入的更新。
[0019]在一些实施方式中,空间嵌入神经网络不处理当前观察来生成当前时间步长的当前空间嵌入。
[0020]在一些实施方式中,该方法还包括:将当前观察和当前空间嵌入的表示存储在外部存储器中的槽位中。
[0021]在一些实施方式中,该方法还包括:使用具有一组第二空间嵌入神经网络参数的第二空间嵌入神经网络来处理表征在当前时间步长中的代理在环境中的运动的第二数据,以生成当前时间步长的第二当前空间嵌入,其中,外部存储器中的每个槽位还存储第二空间嵌入,其中,对于外部存储器中的每个槽位,槽位的预测评分还测量(i)第二当前空间嵌入和(ii)与槽位对应的第二空间嵌入之间的相似度;以及,基于预测评分和目标评分之间的误差,确定对该组第二空间嵌入神经网络参数的值的更新。
[0022]在一些实施方式中,由空间嵌入神经网络处理的表征代理运动的数据是由第二空间嵌入神经网络处理的表征代理运动的第二数据的真子集。
[0023]在一些实施方式中,对于外部存储器中的每个槽位,确定槽位的预测评分包括确定(i)当前空间嵌入和与槽位对应的空间嵌入之间的相似度测量与(ii)第二当前空间嵌入和与槽位对应的第二空间嵌入之间的相似度测量的乘积。
[0024]在一些实施方式中,该方法还包括:对于多个时间步长中的每一个:使用动作选择神经网络处理当前观察和当前空间嵌入,以生成动作选择输出;以及,使用动作选择输出选择在当前时间步长中由代理执行的动作。
[0025]在一些实施方式中,动作选择输出包括在预先确定的一组动作中的每个动作的相应评分。
[0026]在一些实施方式中,选择在当前时间步长中由代理执行的动作包括选择具有最高评分的动作。
[0027]在一些实施方式中,动作选择神经网络使用强化学习技术训练,以鼓励代理在环境中执行任务。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种由一个或多个数据处理装置执行的用于训练具有一组空间嵌入神经网络参数的空间嵌入神经网络的方法,空间嵌入神经网络被配置为处理表征与环境互动的代理的运动的数据以生成空间嵌入,所述方法包括:对于多个时间步长中的每一个:使用空间嵌入神经网络处理表征在当前时间步长中的代理在环境中的运动的数据,以生成当前时间步长的当前空间嵌入;确定外部存储器中的多个槽位中的每一个的预测评分和目标评分,其中,每个槽位存储:(i)表征环境状态的观察的表示和(ii)空间嵌入,其中,每个槽位的预测评分测量(i)当前空间嵌入和(ii)与槽位对应的空间嵌入之间的相似度,其中,每个槽位的目标评分测量(i)表征在当前时间步长中的环境状态的当前观察和(ii)与槽位对应的观察之间的相似度;以及基于预测评分和目标评分之间的误差,确定对一组空间嵌入神经网络参数的值的更新。2.根据权利要求1所述的方法,其中,表征在当前时间步长中的代理在环境中的运动的数据包括以下各项中的一个或多个:表征在当前时间步长中的代理速度的速度数据、表征在当前时间步长中的代理角速度的角速度数据、或表征在当前时间步长中的代理平移速度的平移速度数据。3.根据权利要求1至2中任一项所述的方法,其中,表征在当前时间步长中的环境状态的当前观察包括图像。4.根据权利要求3所述的方法,其中,图像从在当前时间步长中的代理的视角下捕捉。5.根据权利要求1至4中任一项所述的方法,其中,确定外部存储器中的每个槽位的目标评分包括:获得表征当前环境状态的当前观察和与槽位对应的观察的相应嵌入;以及基于(i)表征当前环境状态的当前观察的嵌入和(ii)与槽位对应的观察的嵌入之间的相似度测量,确定目标评分。6.根据权利要求5所述的方法,其中,获得当前观察的嵌入包括:使用嵌入神经网络处理当前观察。7.根据前述权利要求中任一项所述的方法,其中,预测评分和目标评分之间的误差包括预测评分和目标评分之间的交叉熵误差。8.根据前述权利要求中任一项所述的方法,还包括:基于预测评分和目标评分之间的误差,确定对存储在外部存储器中的空间嵌入的更新。9.根据前述权利要求中任一项所述的方法,其中,空间嵌入神经网络不处理当前观察以生成当前时间步长的当前空间嵌入。10.根据前述权利要求中任一项所述的方法,还包括:将当前观察和当前空间嵌入的表示存储在外部存储器中的槽位中。11.根据前述权利要求中任一项所述的方法,还包括:使用具有一组第二空间嵌入神经网络参数的第二空间嵌入神经网络来处理表征在当前时间步长中的代理在环境中的运动的第二数据,以生成当前时间步长的第二当前空间嵌入,
其中,外部存储器中的每个槽位还存储第二空间嵌入,其中,对于外部存储器中的每个槽位,槽位的预测评分还测量(i)第二当前空间嵌入和(ii)与槽位对应的第二空间嵌入之间的相似度;以及基于预测评分和目标评分之间的误差,确定对一组第二空间嵌入神经网络参数的值的更新。12.根据权利要求11所述的方法,其中,由空间嵌入神经网络处理的表征代理运动的数据是由第二空间嵌入神经网络处理的表征代理运动的第二数据的真子集。13.根据权利要求11至12中任一项所述的方法,其中,对于外部存储器中的每个槽位,确定槽位的预测评分包括确定(i)当前空间嵌入和与槽位对应的空间嵌入之...

【专利技术属性】
技术研发人员:B乌里亚马蒂内兹A巴尼诺B伊巴兹加巴多斯V扎姆巴尔迪C布伦德尔
申请(专利权)人:渊慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1