可联合实现语义分割和景深估计的网络模型及训练方法技术

技术编号：24709226 阅读：31 留言：0更新日期：2020-07-01 00:09

本发明专利技术公开了一种可联合实现语义分割和景深估计的网络模型，包括：特征共享模块、多任务子网络，多任务子网络包括多个结构相同的任务子网络以供处理不同任务目标，包括：特征筛选模块、注意力集中模块和预测模块；特征筛选模块从共享特征筛选出与任务相关的特征；注意力集中模块提升筛选特征与任务目标的相关性；预测模块被配置为对集中注意力特征卷积后输出各任务目标的处理结果。本申请还公开了上述模型的训练方法，分别针对语义分割和景深估计进行反向传播迭代训练。本申请的模型精确性高、鲁棒性强，且模型轻量化。

全部详细技术资料下载

【技术实现步骤摘要】
可联合实现语义分割和景深估计的网络模型及训练方法
本专利技术涉及计算机视觉图像处理，具体涉及一种可联合实现语义分割和景深估计的网络模型及训练方法。
技术介绍
语义分割是一种典型的计算机视觉问题，属于高层视觉任务，是理解场景的一种有效方法，从微观意义上了说，语义分割对图像中所有像素点进行预测，对每个像素点打上所属类别标签。同时也是实现细粒度推理中重要的一步。对于细粒度推理来说，进行物体的定位与检测，这将不止需要物体类别信息，也需要关于各类别空间位置的额外信息，比如中心点或者边框，因此语义分割是实现细粒度推理的重要一步。在现有的计算机视觉图像处理的应用场景中，例如在自动驾驶、机器人系统、场景理解等，除了需要感知语义信息以外，还需要去推理出当前车辆与周围车辆、行人和障碍物的距离，通过景深估计来提升自动驾驶的安全性。目前，深度学习（DeepLearning，简称DL）中的卷积神经网络（ConvolutionalNeuralNetworks,简称CNN）已经在计算机视觉领域中表现出色。包括：图像分类、语义分割、物体检测、目标跟踪、景深估计。将一个端到端的CNN集成到视觉图像处理的感知模块中，对周围环境中的物体进行语义分割和景深估计，对于安全性来说是一个可行方案。但现有模型单一化，无法解决多个任务，在实际的应用场景中，特别是在自动驾驶领域中，由于自动驾驶的汽车要考虑内存和实时性，这一缺点被放大化；另外，现有的单任务模型特征提取噪音较大，对注意力的提升效果不理想，且计算量大。
技术实现思路
专利...

【技术保护点】
1.一种可联合实现语义分割和景深估计的网络模型，其特征在于，包括：/n特征共享模块，其被配置为将输入图像通过卷积神经网络进行特征提取，得到共享特征；/n多任务子网络，其被配置为分别根据各任务目标，基于所述共享特征进行图像处理；所述任务目标包括图像语义分割、图像景深估计；/n所述多任务子网络包括多个结构相同的任务子网络以供处理不同任务目标，每个所述任务子网络结构相同，包括：特征筛选模块、注意力集中模块和预测模块；/n所述特征筛选模块被配置为根据各任务目标，从共享特征筛选出与任务相关的特征，得到对应的筛选特征；/n所述注意力集中模块被配置为提升所述筛选特征与任务目标的相关性，得到集中注意力特征；/n所述预测模块被配置为对所述集中注意力特征卷积后输出各任务目标的处理结果。/n

【技术特征摘要】
1.一种可联合实现语义分割和景深估计的网络模型，其特征在于，包括：
特征共享模块，其被配置为将输入图像通过卷积神经网络进行特征提取，得到共享特征；
多任务子网络，其被配置为分别根据各任务目标，基于所述共享特征进行图像处理；所述任务目标包括图像语义分割、图像景深估计；
所述多任务子网络包括多个结构相同的任务子网络以供处理不同任务目标，每个所述任务子网络结构相同，包括：特征筛选模块、注意力集中模块和预测模块；
所述特征筛选模块被配置为根据各任务目标，从共享特征筛选出与任务相关的特征，得到对应的筛选特征；
所述注意力集中模块被配置为提升所述筛选特征与任务目标的相关性，得到集中注意力特征；
所述预测模块被配置为对所述集中注意力特征卷积后输出各任务目标的处理结果。

2.根据权利要求1所述的模型，其特征在于，所述特征共享模块采用编码-解码结构，包括编码单元和解码单元，所述编码单元的输出作为所述解码单元的输入；
所述编码单元包括多个编码块以及与编码块间隔串接的下采样块；
所述解码单元包括与编码块对应的多个解码块以及与下采样块对应的多个上采样块，所述解码块与所述上采样块间隔串接，每个所述编码块与其对应的解码块形成编解码对。

3.根据权利要求2所述的模型，其特征在于，所述特征筛选模块包括与所述编解码对相对应的多个特征筛选单元，以及与所述特征筛选单元间隔串接的上采样块；
每个所述特征筛选单元的输入来源于与其对应的编码块和解码块的输出特征以及前一特征筛选单元输出上采样后的结果。

4.根据权利要求3所述的模型，其特征在于，所述特征筛选单元通过筛选块学习筛选掩码进行特征筛选，其输出表示为：

其中，k为特征筛选单元的编号，N为特征筛选单元的数量，t为任务编号，为任务t在第k特征筛选单元中学习到筛选掩码，为任务t在第k特征筛选单元的筛选块，为任务t在第k特征筛选单元中的输出；

为第i编码块的输出，为第j解码块的输出，第i编码块与第N+1-i解码块构成编解码对；

表示像素级相乘，©表示连接。

5.根据权利要求4所述的模型，其特征在于，所述筛选块包括卷积块以及与卷积块串接的第一激活函数，所述卷积块包括多个拼接的卷积单元，所述卷积单元包括依次连接的标准卷积、批标准化和第二激活函数。

6.根据权利要求1所述的模...

【专利技术属性】
技术研发人员：邵文泽，张寒波，李海波，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人