当前位置: 首页 > 专利查询>复旦大学专利>正文

视觉语言室内导航方法、装置、设备及存储介质制造方法及图纸

技术编号:34521749 阅读:21 留言:0更新日期:2022-08-13 21:11
本申请实施例提供视觉语言室内导航方法、装置、设备及存储介质,其中的方法包括:基于预设的课程设计原则对预获取的R2R训练集进行重新设置,以得到融合有人类先验知识且适用于课程学习的CLR2R训练集;应用课程学习方式根据所述CLR2R训练集训练得到视觉语言室内导航模型以使虚拟机器人根据该视觉语言室内导航模型执行对应的室内导航任务。本申请能够有效且持续提高视觉语言室内导航过程的准确性、可靠性及效率,且能够在不增加模型复杂度的情况下显著提高导航机器人的性能、泛化性和训练效率。率。

【技术实现步骤摘要】
视觉语言室内导航方法、装置、设备及存储介质


[0001]本申请涉及数据处理
,具体涉及视觉语言室内导航方法、装置、设备及存储介质。

技术介绍

[0002]基于视觉

语言的导航任务VLN(Vision

and

Language Navigation)是一项虚拟机器人在人类指令下在一个具体的室内环境中执行导航的任务。然而,现有的视觉和语言导航方式大多忽略了样本难度的分布,因此易导致视觉和语言导航过程中的虚拟机器人的性能下降。

技术实现思路

[0003]针对现有技术中的问题,本申请提供一种视觉语言室内导航方法、装置、设备及存储介质,能够有效且持续提高视觉语言室内导航过程的准确性、可靠性及效率,且能够在不增加模型复杂度的情况下显著提高导航机器人的性能、泛化性和训练效率。
[0004]为解决上述技术问题,本申请提供以下技术方案:
[0005]第一方面,本申请提供一种视觉语言室内导航方法,包括:
[0006]基于预设的课程设计原则对预获取的R2R训练集进行重新设置,以得到融合有人类先验知识且适用于课程学习的CLR2R训练集;
[0007]应用课程学习方式根据所述CLR2R训练集训练得到视觉语言室内导航模型以使虚拟机器人根据该视觉语言室内导航模型执行对应的室内导航任务。
[0008]进一步地,在所述基于预设的课程设计原则对预获取的R2R训练集进行重新设置,以得到融合有人类先验知识且适用于课程学习的CLR2R训练集之前,还包括:
[0009]获取针对视觉语言室内导航的人类先验知识数据,该人类先验知识数据包括:房间长度与导航任务的难度之间存在正相关关系,其中,所述房间长度为导航路径覆盖的房间数量。
[0010]进一步地,所述基于预设的课程设计原则对预获取的R2R训练集进行重新设置,以得到融合有人类先验知识且适用于课程学习的CLR2R训练集,包括:
[0011]基于所述人类先验知识数据将预获取的R2R训练集对应的各个样本重新进行布局,以形成适用于课程学习的CLR2R训练集,其中,该CLR2R训练集包括由易至难排列的多个子集。
[0012]进一步地,所述基于所述人类先验知识数据将预获取的R2R训练集对应的各个样本重新进行布局,以形成适用于课程学习的CLR2R训练集,包括:
[0013]根据所述人类先验知识数据将预获取的R2R训练集划分为由易至难排列的五个各自包含有不同样本的子集,且五个所述子集中样本对应的房间长度不同。
[0014]进一步地,所述应用课程学习方式根据所述CLR2R训练集训练得到视觉语言室内导航模型以使虚拟机器人根据该视觉语言室内导航模型执行对应的室内导航任务,包括:
[0015]应用所述CLR2R训练集,基于自定进度课程学习SPCL的目标损失函数训练深度学习模型,得到对应的视觉语言室内导航模型以使虚拟机器人根据该视觉语言室内导航模型执行对应的室内导航任务。
[0016]进一步地,所述目标损失函数的最优权重基于投影梯度下降法求解。
[0017]进一步地,还包括:
[0018]基于所述R2R训练集对应的原验证集和原测试集,获取所述视觉语言室内导航模型的实验比较结果。
[0019]第二方面,本申请提供一种视觉语言室内导航装置,包括:
[0020]训练集重置模块,用于基于预设的课程设计原则对预获取的R2R训练集进行重新设置,以得到融合有人类先验知识且适用于课程学习的CLR2R训练集;
[0021]课程学习模块,用于应用课程学习方式根据所述CLR2R训练集训练得到视觉语言室内导航模型以使虚拟机器人根据该视觉语言室内导航模型执行对应的室内导航任务。
[0022]第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的视觉语言室内导航方法。
[0023]第四方面,本申请提一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的视觉语言室内导航方法。
[0024]由上述技术方案可知,本申请提供的一种视觉语言室内导航方法,基于预设的课程设计原则对预获取的基准R2R训练集进行重新设置,以得到融合有人类先验知识且适用于课程学习的CLR2R训练集,再利用CLR2R训练集训练视觉语言室内导航模型,能够充分考虑模型训练过程中的样本难度的分布情况,即在训练过程中从小处开始学习任务中较容易的内容,然后逐步提高难度水平,能够有效提高视觉语言室内导航过程的准确性及可靠性,进而能够有效提高视觉语言室内导航过程的性能;且通过将人类先验知识纳入导航机器人的训练过程,能够持续提高导航机器人的导航性能和训练效率;另外,本申请的改进不涉及模型本身,因此能够在不增加模型复杂度的情况下显著提高当前最先进导航机器人的性能、泛化性和训练效率。
附图说明
[0025]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0026]图1(a)是视觉语言室内导航模型的训练成功率示意图。
[0027]图1(b)是视觉语言室内导航模型的不同误差的比率示意图。
[0028]图2是本申请实施例中的视觉语言室内导航方法的第一种流程示意图。
[0029]图3是本申请实施例中的视觉语言室内导航方法的第二种流程示意图。
[0030]图4是本申请实施例中的视觉语言室内导航装置的结构示意图。
[0031]图5是本申请应用实例提供的不同的房间长度的示例示意图。
[0032]图6是本申请应用实例提供的在CLR2R(R2R)验证集上比较不同训练范式的性能比
较表的示意图。
[0033]图7是本申请应用实例提供的机器学习ML和自定进度课程学习SPCL训练的导航机器人在验证未看见分割上的成功率SR和oracle成功率OSR的示意图。
[0034]图8是本申请应用实例提供的使用不同SPCL超参数设置的CLR2R(或相当于R2R)验证集的成功率SR的示意图。
[0035]图9是本申请应用实例提供的机器学习ML和自定进度课程学习SPCL训练机器人的损失情况的示意图。
[0036]图10是本申请应用实例提供的自我监控机器人在验证未见分割时的转移学习结果的示意图。
具体实施方式
[0037]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视觉语言室内导航方法,其特征在于,包括:基于预设的课程设计原则对预获取的R2R训练集进行重新设置,以得到融合有人类先验知识且适用于课程学习的CLR2R训练集;应用课程学习方式根据所述CLR2R训练集训练得到视觉语言室内导航模型以使虚拟机器人根据该视觉语言室内导航模型执行对应的室内导航任务。2.根据权利要求1所述的视觉语言室内导航方法,其特征在于,在所述基于预设的课程设计原则对预获取的R2R训练集进行重新设置,以得到融合有人类先验知识且适用于课程学习的CLR2R训练集之前,还包括:获取针对视觉语言室内导航的人类先验知识数据,该人类先验知识数据包括:房间长度与导航任务的难度之间存在正相关关系,其中,所述房间长度为导航路径覆盖的房间数量。3.根据权利要求2所述的视觉语言室内导航方法,其特征在于,所述基于预设的课程设计原则对预获取的R2R训练集进行重新设置,以得到融合有人类先验知识且适用于课程学习的CLR2R训练集,包括:基于所述人类先验知识数据将预获取的R2R训练集对应的各个样本重新进行布局,以形成适用于课程学习的CLR2R训练集,其中,该CLR2R训练集包括由易至难排列的多个子集。4.根据权利要求3所述的视觉语言室内导航方法,其特征在于,所述基于所述人类先验知识数据将预获取的R2R训练集对应的各个样本重新进行布局,以形成适用于课程学习的CLR2R训练集,包括:根据所述人类先验知识数据将预获取的R2R训练集划分为由易至难排列的五个各自包含有不同样本的子集,且五个所述子集中样本对应的房间长度不同。5...

【专利技术属性】
技术研发人员:魏忠钰张霁雯
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1