一种使用可解释自聚焦注意预测行为的方法和装置制造方法及图纸

技术编号：36582814 阅读：30 留言：0更新日期：2023-02-04 17:43

提供一种可解释自聚焦注意预测行为的方法，其中，包括：(a)当获得由摄像头拍摄的视频和由多个传感器感测的多个传感信息时，将每个图像和多个所述传感信息输入到元数据识别模块以输出多个元数据，将多个所述元数据输入到特征编码模块以输出用于行为预测的多个特征；(b)将多个所述元数据和多个所述特征输入到解释模块以生成多个解释，将多个所述图像和多个所述元数据输入到自聚焦注意模块以输出多个注意图，将多个所述注意图输入到行为预测模块以生成多个行为预测结果；以及(c)通过输出模块输出多个行为，通过可视化模块将影响行为预测的因素可视化并输出。测的因素可视化并输出。测的因素可视化并输出。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】一种使用可解释自聚焦注意预测行为的方法和装置

[0001]本专利技术要求于2020年5月18日提交的美国专利申请第63/026,424号和2020年12月28日提交的美国专利申请第17/135,396号的优先权和权益，其全部内容通过引用合并于此。
[0002]本专利技术涉及一种行为预测，更具体地，涉及一种使用可解释自聚焦注意预测行为的方法和装置。

技术介绍

[0003]最近，正在研究使用机器学习(machine learning)进行物体识别等的方法。
[0004]作为这些机器学习之一，深度学习(deep learning)使用在输入层(input layer)与输出层(output layer)之间具有多个隐藏层(hidden layer)的神经网络，其具有很高的识别性能。
[0005]并且，深度学习正在应用于各种工业领域，例如自动驾驶汽车、自动驾驶飞行器和自动驾驶机器人等。
[0006]尤其，近年来，通过针对给定视频和传感信息进行感知(perception)、定位(localization)和映射(mapping)来预测行为(行动)的研究正在进行中，作为一例，预测对象的轨迹(trajectory)。
[0007]参见图1，在现有的自动驾驶车辆中，行为预测装置通过视频和传感信息获取模块10获取自动驾驶车辆行驶过程中拍摄的视频和从自动驾驶车辆的传感器感测到的多个传感信息，并通过元数据识别模块20获取视频中与每一帧对应的多个图像和与多个传感信息对应的多个元数据。此时，每个元数据可...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种使用可解释自聚焦注意预测行为的方法，其中，包括：(a)当获得(1)由安装在设备上的摄像头拍摄的测试用视频和(2)由安装在所述设备上的多个测试用传感器感测到的多个测试用传感信息时，行为预测装置(i)将与所述测试用视频中的每一测试用帧对应的多个测试用图像和与所述每一测试用帧对应的多个所述测试用传感信息输入到元数据识别模块，以使所述元数据识别模块对与所述每一测试用帧对应的多个所述测试用图像和多个所述测试用传感信息进行学习运算以输出与所述每一测试用帧对应的多个测试用元数据，(ii)将与所述每一测试用帧对应的多个所述测试用元数据输入到特征编码模块，以使所述特征编码模块对与所述每一测试用帧对应的每个所述测试用元数据进行编码以输出所述每一测试用帧对应的多个测试用特征；(b)所述行为预测装置(i)将与所述每一测试用帧对应的多个所述测试用图像、多个所述测试用元数据和多个所述测试用特征输入到解释模块，使所述解释模块生成关于影响所述每一测试用帧上的测试用行为预测的测试用因素的与所述每一测试用帧对应的多个测试用解释，(ii)将与所述每一测试用帧对应的多个所述测试用图像和多个所述测试用元数据输入到自聚焦注意模块，使所述自聚焦注意模块通过学习运算输出注意针对与所述每一测试用帧对应的各所述测试用图像中为了测试用行为预测而需要关注的每个测试用对象的多个测试用区域的与所述每一测试用帧对应的多个测试用注意图，(iii)将与所述每一测试用帧对应的多个所述测试用特征和多个所述测试用注意图输入到行为预测模块，使所述行为预测模块通过学习运算对与所述每一测试用帧对应的多个所述测试用特征和多个所述测试用注意图进行分析，以生成预测关于各所述测试用对象的行为的多个所述测试用行为预测；以及(c)所述行为预测装置(i)通过输出模块输出与多个所述测试用对象的多个测试用行为预测对应的测试用行为结果，(ii)通过可视化模块参考多个所述测试用行为结果和多个所述测试用解释对影响行为预测的测试用因素进行可视化并输出。2.根据权利要求1所述的方法，其中：所述解释模块和所述自聚焦注意模块处于已被学习装置学习的状态，是被所述学习装置如下学习的状态：所述学习装置(i)将与每个学习用帧对应的多个学习用图像和与每个所述学习用帧对应的多个学习用传感信息输入到所述元数据识别模块，使所述元数据识别模块输出与每个所述学习用帧对应的多个学习用元数据，(ii)将与每个所述学习用帧对应的多个所述学习用元数据输入到所述特征编码模块，使所述特征编码模块对与每个所述学习用帧对应的多个所述学习用元数据进行编码以输出用于行为预测的与每个所述学习用帧对应的多个学习用特征，(iii)将与每个所述学习用帧对应的多个所述学习用图像、多个所述学习用元数据和多个所述学习用特征输入到所述解释模块，使所述解释模块生成关于影响所述每个学习用帧上的行为预测的因素的与所述每个学习用帧对应的多个所述学习用解释，(iv)将与每个所述学习用帧对应的多个所述学习用解释和多个所述学习用元数据输入到所述自聚焦注意模块，使所述自聚焦注意模块分析与每个所述学习用帧对应的多个所述学习用解释和多个所述学习用元数据以输出为了行为预测而需要关注的多个区被注意的与多个所述学习用帧对应的多个所述学习用注意图，并(v)(v
‑
1)分别最小化参考多个所述学习用解释和与其对应的多个解释真实数据的多个解释损失、以及(v
‑
2)参考多个所述学习用注意图和与其对应的多个注意真实数据的多个损失。
3.根据权利要求1所述的方法，其中：在所述(b)中，所述行为预测装置使所述解释模块(i)通过自编码器的编码器生成对与所述每一测试用帧对应的测试用图像、多个所述测试用元数据和多个所述测试用特征进行降维的与所述每一测试用帧对应的多个测试用潜在特征，并(ii)通过自编码器的解码器重建与所述每一测试用帧对应的多个所述测试用潜在特征以生成影响测试用行为预测的多个测试用因素被注意的与所述每一测试用帧对应的多个测试用解释。4.根据权利要求3所述的方法，其中：在所述(c)中，所述行为预测装置使所述可视化模块参考多个所述测试用行为预测和多个所述测试用解释，在每个所述测试用图像中标记至少一个影响行为预测的目标对象为所述测试用区域，并输出各标记测试用图像。5.根据权利要求1所述的方法，其中：在所述(b)中，所述行为预测装置使所述解释模块(i)(i
‑
1)对与所述每一测试用帧对应的多个测试用图像、多个所述测试用元数据和多个所述测试用特征进行学习运算以生成与所述每一测试用帧对应的多个测试用语义分割图像，并且(i
‑
2)通过所述自编码器在所述测试用语义分割图像识别实例级感兴趣的实例区域，然后(ii)生成所述每一测试用帧对应的测试用解释图像，和参考在上述(i
‑
2)的结果标记影响测试用行为预测的多个测试用因素。6.根据权利要求1所述的方法，其中：在所述(b)中，所述行为预测装置使所述解释模块对与所述每一测试用帧对应的多个所述测试用元数据进行学习运算，基于与所述每一测试用帧对应的多个测试用图像中所有与测试用对象相关联的多个所述测试用元数据生成多个测试用决策树。7.根据权利要求6所述的方法，其中：在所述(c)中，所述行为预测装置使所述可视化模块参考多个所述测试用决策树和多个所述测试用解释，以输出关于所述每一测试用帧中至少一个影响测试用行为预测的目标对象的状态信息。8.根据权利要求1所述的方法，其中：在所述(a)中，所述行为预测装置将与所述每一帧对应的多个所述测试用图像和多个所述测试用传感信息输入到所述元数据识别模块，使所述元数据识别模块(1)通过感知模块检测多个所述设备的周围的环境信息，并(2)通过定位和映射模块检测所述设备的定位信息。9.根据权利要求1所述的方法，其中：与所述每一帧对应的多个所述测试用元数据至少包括与多个所述测试用对象对应的多个对象边界框、所述设备的多个姿态信息和与所述设备所在区域对应的地图信息。10.根据权利要求1所述的方法，其中：所述行为预测模块包括循环神经网络，其由长短期记忆算法和长短期记忆
‑
生成对抗
网络算法中的至少一种组成。11.一种使用可解释自聚焦注意的行为预测装置，其中，包括：至少一个存储器，其存储多个用于使用可解释自聚焦注意来预测行为的指令；和处理器，其根据所述指令使用可解释自聚...

【专利技术属性】
技术研发人员：诸泓模，刘东奎，康凤男，金镕重，
申请(专利权)人：斯特拉德视觉公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人