一种使用可解释自聚焦注意预测行为的方法和装置制造方法及图纸

技术编号:36582814 阅读:24 留言:0更新日期:2023-02-04 17:43
提供一种可解释自聚焦注意预测行为的方法,其中,包括:(a)当获得由摄像头拍摄的视频和由多个传感器感测的多个传感信息时,将每个图像和多个所述传感信息输入到元数据识别模块以输出多个元数据,将多个所述元数据输入到特征编码模块以输出用于行为预测的多个特征;(b)将多个所述元数据和多个所述特征输入到解释模块以生成多个解释,将多个所述图像和多个所述元数据输入到自聚焦注意模块以输出多个注意图,将多个所述注意图输入到行为预测模块以生成多个行为预测结果;以及(c)通过输出模块输出多个行为,通过可视化模块将影响行为预测的因素可视化并输出。测的因素可视化并输出。测的因素可视化并输出。

【技术实现步骤摘要】
【国外来华专利技术】一种使用可解释自聚焦注意预测行为的方法和装置


[0001]本专利技术要求于2020年5月18日提交的美国专利申请第63/026,424号和2020年12月28日提交的美国专利申请第17/135,396号的优先权和权益,其全部内容通过引用合并于此。
[0002]本专利技术涉及一种行为预测,更具体地,涉及一种使用可解释自聚焦注意预测行为的方法和装置。

技术介绍

[0003]最近,正在研究使用机器学习(machine learning)进行物体识别等的方法。
[0004]作为这些机器学习之一,深度学习(deep learning)使用在输入层(input layer)与输出层(output layer)之间具有多个隐藏层(hidden layer)的神经网络,其具有很高的识别性能。
[0005]并且,深度学习正在应用于各种工业领域,例如自动驾驶汽车、自动驾驶飞行器和自动驾驶机器人等。
[0006]尤其,近年来,通过针对给定视频和传感信息进行感知(perception)、定位(localization)和映射(mapping)来预测行为(行动)的研究正在进行中,作为一例,预测对象的轨迹(trajectory)。
[0007]参见图1,在现有的自动驾驶车辆中,行为预测装置通过视频和传感信息获取模块10获取自动驾驶车辆行驶过程中拍摄的视频和从自动驾驶车辆的传感器感测到的多个传感信息,并通过元数据识别模块20获取视频中与每一帧对应的多个图像和与多个传感信息对应的多个元数据。此时,每个元数据可以包括:基于深度学习分析多个视频图像而获得的视频图像分析结果,如针对多个对象的边界框、红绿灯(traffic light)、交通标志(traffic sign);和参考传感信息的自我车辆姿态、地图信息等。并且,行为预测装置通过特征编码模块30对多个元数据进行编码以生成多个用于行为预测的特征,并通过基于深度学习的行为预测模块40对多个特征进行学习运算来预测针对多个对象的行为,即多个对象的多个轨迹,并通过输出模块50输出所预测的多个对象的行为。
[0008]另一方面,通常,将用于分析连续视频图像的长短期记忆(Long Short

Term Memory,LSTM)模型应用于行为预测,最近,使用生成对抗网络(GAN)进一步提高了LSTM的行为预测性能。
[0009]然而,深度学习网络通常是不可解释(explainable)的。即,在深度学习网络中,不能知道为什么要对行为预测做出这样的判断,以及哪些特征影响了预测。
[0010]因此,现有的行为预测网络正在朝着提供更复杂的模型和附加技术的方向改进其性能,而不管影响预测的特征如何,从而存在应用行为预测网络的设备的计算源被过度使用的问题。
[0011]此外,随着提供复杂的模型和附加技术,存在应用行为预测网络的设备需要更多计算源的问题。

技术实现思路

[0012]技术问题
[0013]本专利技术的目的在于解决所有上述问题。
[0014]本专利技术的另一目的在于获知影响行为预测网络预测的因素。
[0015]本专利技术的又一目的在于在行为预测网络中预测特定对象的行为时获知要注意的区域。
[0016]本专利技术的再一个目的在于通过影响行为预测网络预测的因素来有效地提高行为预测网络的性能。
[0017]技术方案
[0018]为了实现上述本专利技术的目的并实现后述的本专利技术的特征效果,本专利技术的特征结构如下。
[0019]根据本专利技术的一实施例,提供一种使用可解释自聚焦注意预测行为的方法,其中,包括:(a)当获得由安装在设备上的摄像头拍摄的影像和由安装在所述设备上的多个传感器感测到的多个传感信息时,行为预测装置将与所述影像中的每一帧对应的多个图像和与所述每一帧对应的多个所述传感信息输入到元数据识别模块,以使所述元数据识别模块对与所述每一帧对应的多个所述图像和多个所述传感信息进行学习运算以输出与所述每一帧对应的多个元数据,将与所述每一帧对应的多个所述元数据输入到特征编码模块,以使所述特征编码模块对与所述每一帧对应的每个所述元数据进行编码并输出用于行为预测的与所述每一帧对应的多个特征;(b)所述行为预测装置将与所述每一帧对应的多个所述图像、多个所述元数据和多个所述特征输入到解释模块,使所述解释模块生成关于影响所述每一帧上的行为预测的因素的与所述每一帧对应的多个解释,将与所述每一帧对应的多个所述图像和多个所述元数据输入到自聚焦注意模块,使所述自聚焦注意模块通过学习运算输出注意针对与所述每一帧对应的各所述图像中为了行为预测而需要关注的每个对象的多个区域的与所述每一帧对应的多个注意图,将与所述每一帧对应的多个所述特征和多个所述注意图输入到行为预测模块,使所述行为预测模块通过学习运算分析与所述每一帧对应的多个所述特征和多个所述注意图,以生成预测关于各所述对象的行为的多个行为预测结果;以及(c)所述行为预测装置通过输出模块输出与所述行为预测结果对应的多个所述对象的多个行为,通过可视化模块参考多个所述行为结果和多个所述解释对影响行为预测的元素进行可视化并输出。
[0020]另外,根据本专利技术的一实施例,预测行为的方法,所述解释模块和所述自聚焦注意模块处于已被学习装置学习的状态,是被所述学习装置如下学习的状态:所述学习装置将与每个学习用帧对应的多个学习用图像和与每个所述学习用帧对应的多个学习用传感信息输入到所述元数据识别模块,使所述元数据识别模块输出与每个所述学习用帧对应的多个学习用元数据,将与每个所述学习用帧对应的多个所述学习用元数据输入到所述特征编码模块,使所述特征编码模块对与每个所述学习用帧对应的多个所述学习用元数据进行编码以输出用于行为预测的与每个所述学习用帧对应的多个学习用特征,将与每个所述学习用帧对应的多个所述学习用图像、多个所述学习用元数据和多个所述学习用特征输入到所述解释模块,使所述解释模块生成关于影响所述每个学习用帧中的行为预测的因素的与所述每个学习用帧对应的多个所述学习用解释,将与每个所述学习用帧对应的多个所述学习
用解释和多个所述学习用元数据输入到所述自聚焦注意模块,使所述自聚焦注意模块分析与每个所述学习用帧对应的多个所述学习用解释和多个所述学习用元数据以输出为了行为预测而需要关注的多个区被注意的与多个所述学习用帧对应的多个所述学习用注意图,并分别最小化参考多个所述学习用解释和与其对应的多个解释真实数据的多个解释损失、以及参考多个所述学习用注意图和与其对应的多个注意真实数据的多个损失。
[0021]另外,根据本专利技术的一实施例,提供一种使用可解释自聚焦注意预测行为的方法,在所述(b)中,所述行为预测装置使所述解释模块通过自编码器的编码器生成对与所述每一帧对应的图像、多个所述元数据和多个所述特征进行降维的与所述每一帧对应的多个潜在特征,并通过自编码器的解码器重建与所述每一帧对应的多个所述潜在特征以生成影响行为预测的多个因素被注意的与所述每一帧对应的多个解释。
[0022]另外,根据本专利技术的一实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种使用可解释自聚焦注意预测行为的方法,其中,包括:(a)当获得(1)由安装在设备上的摄像头拍摄的测试用视频和(2)由安装在所述设备上的多个测试用传感器感测到的多个测试用传感信息时,行为预测装置(i)将与所述测试用视频中的每一测试用帧对应的多个测试用图像和与所述每一测试用帧对应的多个所述测试用传感信息输入到元数据识别模块,以使所述元数据识别模块对与所述每一测试用帧对应的多个所述测试用图像和多个所述测试用传感信息进行学习运算以输出与所述每一测试用帧对应的多个测试用元数据,(ii)将与所述每一测试用帧对应的多个所述测试用元数据输入到特征编码模块,以使所述特征编码模块对与所述每一测试用帧对应的每个所述测试用元数据进行编码以输出所述每一测试用帧对应的多个测试用特征;(b)所述行为预测装置(i)将与所述每一测试用帧对应的多个所述测试用图像、多个所述测试用元数据和多个所述测试用特征输入到解释模块,使所述解释模块生成关于影响所述每一测试用帧上的测试用行为预测的测试用因素的与所述每一测试用帧对应的多个测试用解释,(ii)将与所述每一测试用帧对应的多个所述测试用图像和多个所述测试用元数据输入到自聚焦注意模块,使所述自聚焦注意模块通过学习运算输出注意针对与所述每一测试用帧对应的各所述测试用图像中为了测试用行为预测而需要关注的每个测试用对象的多个测试用区域的与所述每一测试用帧对应的多个测试用注意图,(iii)将与所述每一测试用帧对应的多个所述测试用特征和多个所述测试用注意图输入到行为预测模块,使所述行为预测模块通过学习运算对与所述每一测试用帧对应的多个所述测试用特征和多个所述测试用注意图进行分析,以生成预测关于各所述测试用对象的行为的多个所述测试用行为预测;以及(c)所述行为预测装置(i)通过输出模块输出与多个所述测试用对象的多个测试用行为预测对应的测试用行为结果,(ii)通过可视化模块参考多个所述测试用行为结果和多个所述测试用解释对影响行为预测的测试用因素进行可视化并输出。2.根据权利要求1所述的方法,其中:所述解释模块和所述自聚焦注意模块处于已被学习装置学习的状态,是被所述学习装置如下学习的状态:所述学习装置(i)将与每个学习用帧对应的多个学习用图像和与每个所述学习用帧对应的多个学习用传感信息输入到所述元数据识别模块,使所述元数据识别模块输出与每个所述学习用帧对应的多个学习用元数据,(ii)将与每个所述学习用帧对应的多个所述学习用元数据输入到所述特征编码模块,使所述特征编码模块对与每个所述学习用帧对应的多个所述学习用元数据进行编码以输出用于行为预测的与每个所述学习用帧对应的多个学习用特征,(iii)将与每个所述学习用帧对应的多个所述学习用图像、多个所述学习用元数据和多个所述学习用特征输入到所述解释模块,使所述解释模块生成关于影响所述每个学习用帧上的行为预测的因素的与所述每个学习用帧对应的多个所述学习用解释,(iv)将与每个所述学习用帧对应的多个所述学习用解释和多个所述学习用元数据输入到所述自聚焦注意模块,使所述自聚焦注意模块分析与每个所述学习用帧对应的多个所述学习用解释和多个所述学习用元数据以输出为了行为预测而需要关注的多个区被注意的与多个所述学习用帧对应的多个所述学习用注意图,并(v)(v

1)分别最小化参考多个所述学习用解释和与其对应的多个解释真实数据的多个解释损失、以及(v

2)参考多个所述学习用注意图和与其对应的多个注意真实数据的多个损失。
3.根据权利要求1所述的方法,其中:在所述(b)中,所述行为预测装置使所述解释模块(i)通过自编码器的编码器生成对与所述每一测试用帧对应的测试用图像、多个所述测试用元数据和多个所述测试用特征进行降维的与所述每一测试用帧对应的多个测试用潜在特征,并(ii)通过自编码器的解码器重建与所述每一测试用帧对应的多个所述测试用潜在特征以生成影响测试用行为预测的多个测试用因素被注意的与所述每一测试用帧对应的多个测试用解释。4.根据权利要求3所述的方法,其中:在所述(c)中,所述行为预测装置使所述可视化模块参考多个所述测试用行为预测和多个所述测试用解释,在每个所述测试用图像中标记至少一个影响行为预测的目标对象为所述测试用区域,并输出各标记测试用图像。5.根据权利要求1所述的方法,其中:在所述(b)中,所述行为预测装置使所述解释模块(i)(i

1)对与所述每一测试用帧对应的多个测试用图像、多个所述测试用元数据和多个所述测试用特征进行学习运算以生成与所述每一测试用帧对应的多个测试用语义分割图像,并且(i

2)通过所述自编码器在所述测试用语义分割图像识别实例级感兴趣的实例区域,然后(ii)生成所述每一测试用帧对应的测试用解释图像,和参考在上述(i

2)的结果标记影响测试用行为预测的多个测试用因素。6.根据权利要求1所述的方法,其中:在所述(b)中,所述行为预测装置使所述解释模块对与所述每一测试用帧对应的多个所述测试用元数据进行学习运算,基于与所述每一测试用帧对应的多个测试用图像中所有与测试用对象相关联的多个所述测试用元数据生成多个测试用决策树。7.根据权利要求6所述的方法,其中:在所述(c)中,所述行为预测装置使所述可视化模块参考多个所述测试用决策树和多个所述测试用解释,以输出关于所述每一测试用帧中至少一个影响测试用行为预测的目标对象的状态信息。8.根据权利要求1所述的方法,其中:在所述(a)中,所述行为预测装置将与所述每一帧对应的多个所述测试用图像和多个所述测试用传感信息输入到所述元数据识别模块,使所述元数据识别模块(1)通过感知模块检测多个所述设备的周围的环境信息,并(2)通过定位和映射模块检测所述设备的定位信息。9.根据权利要求1所述的方法,其中:与所述每一帧对应的多个所述测试用元数据至少包括与多个所述测试用对象对应的多个对象边界框、所述设备的多个姿态信息和与所述设备所在区域对应的地图信息。10.根据权利要求1所述的方法,其中:所述行为预测模块包括循环神经网络,其由长短期记忆算法和长短期记忆

生成对抗
网络算法中的至少一种组成。11.一种使用可解释自聚焦注意的行为预测装置,其中,包括:至少一个存储器,其存储多个用于使用可解释自聚焦注意来预测行为的指令;和处理器,其根据所述指令使用可解释自聚...

【专利技术属性】
技术研发人员:诸泓模刘东奎康凤男金镕重
申请(专利权)人:斯特拉德视觉公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1