System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及深度学习和机器人控制,更具体地说,涉及一种基于方向感知学习的机器人视觉语言导航方法,向模型中加入方向感知学习来提高智能体的方向感知能力,进而增强智能体对自然语言指令和视觉信息的对齐能力,最终实现导航性能的提升。
技术介绍
1、人工智能的未来目标之一,是使智能体具备如下能力:通过视觉、声音等信息感知并理解周围环境,在此基础上能与人类通过自然语言进行沟通,最终可以在真实复杂的环境中执行各类复杂任务,例如,当我们对机器人发出指令“帮我烤一个蛋糕”,机器人可以通过对指令的理解,自主地移动至相应区域,包括厨房、客厅、卧室,并完成后续包括检测并拾取相应物品、对食材进行加工、操作烤箱等任务。随着深度学习在计算机视觉、自然语言处理等领域取得重要进展,研发能自主学习并执行复杂任务的机器人逐渐成为人工智能研究重点之一。
2、然而,在视觉语言导航(vision-and-language navigation,vln)任务中智能体的方向感知问题没有被考虑到。通用的图像-文本学习方法并不能满足智能体后续对执行导航任务的需求。在执行导航任务中,智能体有多种动作选择方式,包括但不限于“左转、右转、前进、后退、停止”等,对于某些指令,在起始位置与终点位置保持不变的情况下,智能体每一次做出动作决策时,即使选择与真实导航过程不同的动作,甚至方向相反的动作,也有几率成功到达目标终点,但在进行导航过程中,可能会因为方向感知错误造成动作选择不合理,导致智能体做出错误导航动作,收集到干扰性的环境视觉信息,进而出现智能体绕路、偏离预期终点方向等问题
3、其中,绿色路径表示正确路径,蓝色和紫色路径是智能体实际的导航路径,节点1和节点2代表智能体在导航过程中做出动作选择的位置节点。在不同的导航路径中,由于在某一个动作选择节点上,智能体对方向感知结果的不同,导致做出的动作选择不同。为此,智能体在进行每一步导航动作决策时,需要从庞大的动作空间中选择出最合理的动作。选择正确的方向对正确的动作选择具有极大帮助。
技术实现思路
1、为了解决上述技术问题,本专利技术提供一种基于方向感知学习的机器人视觉语言导航方法,该方法通过在vln-bert的视觉语言多模态对齐预训练过程中加入方向感知学习来提高智能体的方向感知能力,进而增强智能体对自然语言指令和视觉信息的对齐能力,最终实现导航性能的提升。以解决现有技术中训练好的模型在不可见环境或陌生环境中导航成功率降低等问题。
2、本专利技术技术方案如下:
3、一种基于方向感知学习的机器人视觉语言导航方法,其特征在于,包括:图像和文本嵌入,对r2r数据集中的图像和对应指令文本分别进行嵌入操作,以便于后续进行视觉语言信息的对齐和融合;执行四阶段预训练,在vln-bert三阶段预训练过程加入方向感知学习,从而提高智能体的方向感知能力;执行路径选择微调,通过路径选择来使已经具备通用视觉语言理解能力的智能体具备执行后续导航任务能力。
4、更进一步的,通过图像和文本嵌入,对r2r数据集中的图像和对应指令文本分别进行嵌入操作,便于后续进行视觉语言信息的对齐和融合。
5、更进一步的,所述图像和文本嵌入在vln任务中,智能体需要处理的视觉信息是一系列在时间和空间上为连续的图像信息,语言信息是一段带有导航指令的文本描述。在对图像进行嵌入操作时,与vln-bert相同,本方法将图像片段的边角位置信息、图像片段面积、智能体朝向及俯仰角的正余弦值、下一位置的相关信息共同组合起来,转化为2048维输入向量,将图像片段索引信息转化为另一个2048维输入向量,利用已训练好的faster r-cnn网络对图像进行特征提取操作,所得特征与上文提及的两个向量共同组合成为视觉嵌入结果。在对语言进行嵌入操作时,本方法使用与bert相同的嵌入方式,将词嵌入向量和位置嵌入向量相加,得到最终的语言嵌入结果。
6、更进一步的,在r2r数据集中,对于每一条路径,r2r数据集中有三段自然语言指令描述。在对r2r数据集的自然语言指令进行分析后,本专利技术将指令中决定智能体基于方位做出动作选择的重点词汇筛选整理为以下几个词汇,包括:left,right,up,down,forward,stop。这些词汇在智能体进行自然语言指令理解与后续导航过程中,可以有效帮助智能体进行方位感知,也在很大程度上决定了智能体的动作选择。
7、表1.r2r数据集部分指令内容
8、
9、更进一步的,执行四阶段预训练,在vln-bert三阶段预训练过程中加入方向感知学习,从而提高智能体的方向感知能力。
10、更进一步的,执行四阶段预训练包括:第一阶段,其中:
11、使用从互联网上提取的文本信息数据集对vilbert模型进行语言单模态训练,所述互联网上提取的文本信息数据集包括wikipedia和bookscorpus,利用语言掩码模型(masked language model,mlm)和语句匹配预测(next sentence prediction,nsp)使模型可以进行词汇预测和上下文理解,令其具备通用语言理解能力。
12、更进一步的,mlm首先对文本中的词汇随机进行掩码,根据上下文信息,对掩码的词汇进行反向推理。在预训练过程中,输入文本中有15%的词会被进行掩码操作,掩码操作包括:80%的概率将原词替换为特定词汇表示[mask],10%的概率将原词随机替换为其他词汇,10%的概率使原词保持不变。最终利用交叉熵损失(cross-entropy loss)对模型参数进行反向传递更新。mlm的损失函数如下式所示:
13、
14、在公式中,n代表被掩码的词汇总数,wi指第i个被掩码的词汇,ci是第i个被掩码词汇的上下文信息,p(wi|ci)为模型对被掩码词汇预测的概率分布。
15、更进一步的,nsp任务可以让模型对输入文本中不同句子间的关系进行学习,增强了模型在后续下游任务上的表现。在nsp中,模型会对输入的相邻上下句间的关系进行判断,用一个二元网络来判断输入的两个句子间是否存在上下文的关系。对于每一个输入的语句对,模型会输出其对应的二元概率分布,用来表示语句对之间是连续或不连续的可能性。nsp任务的损失函数如下式所示:
16、
17、在公式中,m是语句对的总数,yj是第j个语句对的真实标签包括:yj=0表示输入的语句对之间是不连续的,yj=1表示输入的语句对之间是连续的,p(yj|sj)是模型对第j个语句对的概率输出。
18、第一阶段的损失函数可以表示为mlm损失函数和nsp损失函数的加权求和,用超参数λ表示进行两个损失函数间的影响比重。第一阶段的损失函数如下式所示:
19、l1=lmlm+λlnsp
20、更进一步的,执行四阶段预训练包括,第二阶段,其中:
...
【技术保护点】
1.一种基于方向感知学习的机器人视觉语言导航方法,其特征在于,基于VLN-BERT模型运行,机器人视觉语言导航方法步骤如下:
2.如权利要求1所述一种基于方向感知学习的机器人视觉语言导航方法,其特征在于,所述图像和文本嵌入方法包括:
3.如权利要求1所述一种基于方向感知学习的机器人视觉语言导航方法,其特征在于,所述四阶段预训练,通过在VLN-BERT三阶段预训练过程加入方向感知学习,从而提高智能体的方向感知能力。
4.如权利要求3所述一种基于方向感知学习的机器人视觉语言导航方法,其特征在于,执行四阶段预训练包括:第一阶段,其中:
5.如权利要求4所述一种基于方向感知学习的机器人视觉语言导航方法,其特征在于,执行四阶段预训练包括:第二阶段,其中:
6.如权利要求5所述一种基于方向感知学习的机器人视觉语言导航方法,其特征在于,执行四阶段预训练包括:第三阶段,其中:
7.如权利要求6所述一种基于方向感知学习的机器人视觉语言导航方法,其特征在于,执行四阶段预训练包括:第四阶段,其中:
8.如权利要求1所述
...【技术特征摘要】
1.一种基于方向感知学习的机器人视觉语言导航方法,其特征在于,基于vln-bert模型运行,机器人视觉语言导航方法步骤如下:
2.如权利要求1所述一种基于方向感知学习的机器人视觉语言导航方法,其特征在于,所述图像和文本嵌入方法包括:
3.如权利要求1所述一种基于方向感知学习的机器人视觉语言导航方法,其特征在于,所述四阶段预训练,通过在vln-bert三阶段预训练过程加入方向感知学习,从而提高智能体的方向感知能力。
4.如权利要求3所述一种基于方向感知学习的机器人视觉语言导航方法,其特征在于,执行四阶段预训练包括:第一阶段,其中:
5.如权利要求4所述一种基于方向感知学习的机器人视觉语言导航方法,其特征在于,执行四阶段预训练包括:第二阶段,其中:<...
【专利技术属性】
技术研发人员:杨博渊,姜宇轩,金川,刘若楠,张卫东,
申请(专利权)人:南京大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。