通过整合代理运动和优化预测目标来生成空间嵌入制造技术

技术编号：35504921 阅读：24 留言：0更新日期：2022-11-09 14:16

用于训练配置为处理表征与环境互动的代理的运动的数据以生成空间嵌入的空间嵌入神经网络的方法、系统和装置，包括编码在计算机存储介质上的计算机程序。在一个方面上，该方法包括：使用空间嵌入神经网络处理表征在当前时间步长中的代理在环境中的运动的数据，以生成当前时间步长的当前空间嵌入；确定外部存储器中的多个槽位中的每一个的预测评分和目标评分，其中，每个槽位存储：(i)表征环境状态的观察的表示和(ii)空间嵌入；以及，基于预测评分和目标评分之间的误差，确定对一组空间嵌入神经网络参数的值的更新。神经网络参数的值的更新。神经网络参数的值的更新。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】通过整合代理运动和优化预测目标来生成空间嵌入

技术介绍

[0001]本说明书涉及使用机器学习模型处理数据。
[0002]机器学习模型接收输入，并且基于所接收的输入来生成输出，例如，预测输出。一些机器学习模型是参数化模型，并且基于所接收的输入并基于模型的参数的值来生成输出。
[0003]一些机器学习模型是采用模型的多个层来针对所接收的输入生成输出的深度模型。例如，深度神经网络是包括输出层和各自向所接收的输入应用非线性转换以生成输出的一个或多个隐藏层的深度机器学习模型。

技术实现思路

[0004]本说明书一般描述一种实现为在一个或多个位置中的一个或多个计算机上的计算机程序的系统和方法，其用于训练具有一组(set)空间嵌入神经网络参数的空间嵌入神经网络。空间嵌入神经网络被配置为处理表征与环境互动的代理的运动的数据，以生成空间嵌入。
[0005]如贯穿本说明书使用的，“嵌入”是指数值的有序集合，例如，数值的向量或矩阵。
[0006]更详细地说，示例方法包括：对于多个时间步长中的每一个，使用空间嵌入神经网络(例如，循环神经网络(recurrent neural network))获得(例如，输入)并处理表征在当前时间步长中的代理在环境中的运动的数据，以生成当前时间步长的当前空间嵌入。该方法确定外部存储器(memory)中的多个槽位(slot)中的每一个的预测评分和目标评分，其中，每个槽位存储：(i)表征环境状态的观察的表示和(ii)空间嵌入。每个槽位的预测评分测量(i)当前空间嵌入和(ii)与槽位对应的空...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种由一个或多个数据处理装置执行的用于训练具有一组空间嵌入神经网络参数的空间嵌入神经网络的方法，空间嵌入神经网络被配置为处理表征与环境互动的代理的运动的数据以生成空间嵌入，所述方法包括：对于多个时间步长中的每一个：使用空间嵌入神经网络处理表征在当前时间步长中的代理在环境中的运动的数据，以生成当前时间步长的当前空间嵌入；确定外部存储器中的多个槽位中的每一个的预测评分和目标评分，其中，每个槽位存储：(i)表征环境状态的观察的表示和(ii)空间嵌入，其中，每个槽位的预测评分测量(i)当前空间嵌入和(ii)与槽位对应的空间嵌入之间的相似度，其中，每个槽位的目标评分测量(i)表征在当前时间步长中的环境状态的当前观察和(ii)与槽位对应的观察之间的相似度；以及基于预测评分和目标评分之间的误差，确定对一组空间嵌入神经网络参数的值的更新。2.根据权利要求1所述的方法，其中，表征在当前时间步长中的代理在环境中的运动的数据包括以下各项中的一个或多个：表征在当前时间步长中的代理速度的速度数据、表征在当前时间步长中的代理角速度的角速度数据、或表征在当前时间步长中的代理平移速度的平移速度数据。3.根据权利要求1至2中任一项所述的方法，其中，表征在当前时间步长中的环境状态的当前观察包括图像。4.根据权利要求3所述的方法，其中，图像从在当前时间步长中的代理的视角下捕捉。5.根据权利要求1至4中任一项所述的方法，其中，确定外部存储器中的每个槽位的目标评分包括：获得表征当前环境状态的当前观察和与槽位对应的观察的相应嵌入；以及基于(i)表征当前环境状态的当前观察的嵌入和(ii)与槽位对应的观察的嵌入之间的相似度测量，确定目标评分。6.根据权利要求5所述的方法，其中，获得当前观察的嵌入包括：使用嵌入神经网络处理当前观察。7.根据前述权利要求中任一项所述的方法，其中，预测评分和目标评分之间的误差包括预测评分和目标评分之间的交叉熵误差。8.根据前述权利要求中任一项所述的方法，还包括：基于预测评分和目标评分之间的误差，确定对存储在外部存储器中的空间嵌入的更新。9.根据前述权利要求中任一项所述的方法，其中，空间嵌入神经网络不处理当前观察以生成当前时间步长的当前空间嵌入。10.根据前述权利要求中任一项所述的方法，还包括：将当前观察和当前空间嵌入的表示存储在外部存储器中的槽位中。11.根据前述权利要求中任一项所述的方法，还包括：使用具有一组第二空间嵌入神经网络参数的第二空间嵌入神经网络来处理表征在当前时间步长中的代理在环境中的运动的第二数据，以生成当前时间步长的第二当前空间嵌入，
其中，外部存储器中的每个槽位还存储第二空间嵌入，其中，对于外部存储器中的每个槽位，槽位的预测评分还测量(i)第二当前空间嵌入和(ii)与槽位对应的第二空间嵌入之间的相似度；以及基于预测评分和目标评分之间的误差，确定对一组第二空间嵌入神经网络参数的值的更新。12.根据权利要求11所述的方法，其中，由空间嵌入神经网络处理的表征代理运动的数据是由第二空间嵌入神经网络处理的表征代理运动的第二数据的真子集。13.根据权利要求11至12中任一项所述的方法，其中，对于外部存储器中的每个槽位，确定槽位的预测评分包括确定(i)当前空间嵌入和与槽位对应的空间嵌入之...

【专利技术属性】
技术研发人员：B乌里亚马蒂内兹，A巴尼诺，B伊巴兹加巴多斯，V扎姆巴尔迪，C布伦德尔，
申请(专利权)人：渊慧科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人