可联合实现语义分割和景深估计的网络模型及训练方法技术

技术编号:24709226 阅读:31 留言:0更新日期:2020-07-01 00:09
本发明专利技术公开了一种可联合实现语义分割和景深估计的网络模型,包括:特征共享模块、多任务子网络,多任务子网络包括多个结构相同的任务子网络以供处理不同任务目标,包括:特征筛选模块、注意力集中模块和预测模块;特征筛选模块从共享特征筛选出与任务相关的特征;注意力集中模块提升筛选特征与任务目标的相关性;预测模块被配置为对集中注意力特征卷积后输出各任务目标的处理结果。本申请还公开了上述模型的训练方法,分别针对语义分割和景深估计进行反向传播迭代训练。本申请的模型精确性高、鲁棒性强,且模型轻量化。

【技术实现步骤摘要】
可联合实现语义分割和景深估计的网络模型及训练方法
本专利技术涉及计算机视觉图像处理,具体涉及一种可联合实现语义分割和景深估计的网络模型及训练方法。
技术介绍
语义分割是一种典型的计算机视觉问题,属于高层视觉任务,是理解场景的一种有效方法,从微观意义上了说,语义分割对图像中所有像素点进行预测,对每个像素点打上所属类别标签。同时也是实现细粒度推理中重要的一步。对于细粒度推理来说,进行物体的定位与检测,这将不止需要物体类别信息,也需要关于各类别空间位置的额外信息,比如中心点或者边框,因此语义分割是实现细粒度推理的重要一步。在现有的计算机视觉图像处理的应用场景中,例如在自动驾驶、机器人系统、场景理解等,除了需要感知语义信息以外,还需要去推理出当前车辆与周围车辆、行人和障碍物的距离,通过景深估计来提升自动驾驶的安全性。目前,深度学习(DeepLearning,简称DL)中的卷积神经网络(ConvolutionalNeuralNetworks,简称CNN)已经在计算机视觉领域中表现出色。包括:图像分类、语义分割、物体检测、目标跟踪、景深估计。将一个端到端的CNN集成到视觉图像处理的感知模块中,对周围环境中的物体进行语义分割和景深估计,对于安全性来说是一个可行方案。但现有模型单一化,无法解决多个任务,在实际的应用场景中,特别是在自动驾驶领域中,由于自动驾驶的汽车要考虑内存和实时性,这一缺点被放大化;另外,现有的单任务模型特征提取噪音较大,对注意力的提升效果不理想,且计算量大。
技术实现思路
专利技术目的:本申请的目的在于提供一种可联合实现语义分割和景深估计的网络模型及训练方法,用于解决现有技术中单任务模型无法同时语义分割及景深估计,且单任务模型中注意力集中效果不理想、计算量大的缺陷。技术方案:本申请一方面提供了一种可联合实现语义分割和景深估计的网络模型,包括:特征共享模块,其被配置为将输入图像通过卷积神经网络进行特征提取,得到共享特征;多任务子网络,其被配置为分别根据各任务目标,基于共享特征进行图像处理;任务目标包括图像语义分割、图像景深估计;多任务子网络包括多个结构相同的任务子网络以供处理不同任务目标,包括:特征筛选模块、注意力集中模块和预测模块;特征筛选模块被配置为根据各任务目标,从共享特征筛选出与任务相关的特征,得到对应的筛选特征;注意力集中模块被配置为提升筛选特征与任务目标的相关性,得到集中注意力特征;预测模块被配置为对集中注意力特征卷积后输出各任务目标的处理结果。进一步地,特征共享模块采用编码-解码结构,包括编码单元和解码单元,编码单元的输出作为解码单元的输入;编码单元包括多个编码块以及与编码块间隔串接的下采样块;解码单元包括与编码块对应的多个解码块以及与下采样块对应的多个上采样块,解码块与上采样块间隔串接,每个编码块与其对应的解码块形成编解码对。进一步地,特征筛选模块包括与编解码对相对应的多个特征筛选单元,以及与特征筛选单元间隔串接的上采样块;每个特征筛选单元的输入来源于与其对应的编码块和解码块的输出特征以及前一特征筛选单元输出上采样后的结果。进一步地,特征筛选单元通过筛选块学习筛选掩码进行特征筛选,其输出表示为:其中,k为特征筛选单元的编号,N为特征筛选单元的数量,t为任务编号,为任务t在第k特征筛选单元中学习到筛选掩码,为任务t在第k特征筛选单元的筛选块,为任务t在第k特征筛选单元的输出;为第i编码块的输出,为第j解码块的输出,第i编码块与第N+1-i解码块构成编解码对;表示像素级相乘,©表示连接。进一步地,筛选块包括卷积块以及与卷积块串接的第一激活函数,卷积块包括多个拼接的卷积单元,卷积单元包括依次连接的标准卷积、批标准化和第二激活函数。进一步地,注意力集中模块提升筛选特征与任务目标的相关性,包括:将筛选特征分别进行两个分支的标准卷积,得到第一提升特征和第二提升特征;将第一提升特征与可学习的向量进行矩阵相乘并经softmax进行逻辑回归,得到归一化因子;将第二提升特征与归一化因子矩阵相乘后进行标准卷积,得到第三提升特征;将第三提升特征与筛选特征进行加性融合得到所述集中注意力特征。本申请另一方面提供了一种用于上述网络模型的训练方法,包括:根据图像识别需求,获取数据集,数据集中包括多张含有识别对象的图像,每个图像携带标签;对数据集按照预设比例划分为第一数据集和第二数据集;对第一数据集中的图像按照预先设定的规则进行预处理,得到训练集;将训练集输入模型中,对模型进行训练,固定模型参数;将第二数据集作为验证集,得到各个任务目标对应的评价指标;利用各任务的损失函数针对评价指标计算误差,进行反向传播修正模型参数,直至模型收敛。进一步地,对于语义分割任务,采用基于像素的交叉熵损失函数来计算预测的类别标签与真实的类别标签之间的差距,其损失函数为:其中,a,b分别为索引图像的高和宽,为真实的类别标签,为预测的类别概率,为图像的高和宽;对于景深估计任务,采用L1正则化来比较预测与真实的深度,其损失函数为:其中,a,b分别为索引图像的高和宽,为真实的深度值,为预测的深度值,为图像的高和宽。进一步地,对于语义分割任务,采取的评价指标为像素精度PA和均交并比mIoU:其中,表示个目标类和一个背景类,表示本属于类且预测为类的像素点总数,表示本属于类且预测为类的像素点总数,表示本属于类且预测为类的像素点总数;对于景深估计任务,采取的评价指标为绝对误差AbsErr和相对误差RelErr:表示真实的深度值,表示预测的深度值。本申请还提供了一种计算机可读存储介质,计算机可读存储介质内存储有计算机指令,计算机指令被执行时实现上述训练方法。有益效果:与现有技术相比,本申请提供的的基于注意力机制的多任务模型架构,深层次的挖掘任务间共享特征,引入注意力集中模块聚焦两分支特别关注的特征,不仅提升了多任务模型的精确性和鲁棒性,而且模型也更加轻量化。附图说明图1为本申请实施例中的网络模型的结构示意图;图2为第一特征筛选单元的结构示意图;图3为除第一特征筛选单元外的其他特征筛选单元的结构示意图;图4为注意力集中模型机构示意图;图5为本申请的模型训练方法流程图。具体实施方式下面结合附图和实施例对本专利技术做进一步描述:本申请一方面提供了一种可联合实现语义分割和景深估计的网络模型,如图1所示,在图像输入模型前,首先通过3*3的标准卷积,对图像进行初步提取,得到输入图像,本实施例中的网络模型包括:特征共享模块,其被配置为将输入图像通过卷积神经网络进行特征提取,得到共享特本文档来自技高网...

【技术保护点】
1.一种可联合实现语义分割和景深估计的网络模型,其特征在于,包括:/n特征共享模块,其被配置为将输入图像通过卷积神经网络进行特征提取,得到共享特征;/n多任务子网络,其被配置为分别根据各任务目标,基于所述共享特征进行图像处理;所述任务目标包括图像语义分割、图像景深估计;/n所述多任务子网络包括多个结构相同的任务子网络以供处理不同任务目标,每个所述任务子网络结构相同,包括:特征筛选模块、注意力集中模块和预测模块;/n所述特征筛选模块被配置为根据各任务目标,从共享特征筛选出与任务相关的特征,得到对应的筛选特征;/n所述注意力集中模块被配置为提升所述筛选特征与任务目标的相关性,得到集中注意力特征;/n所述预测模块被配置为对所述集中注意力特征卷积后输出各任务目标的处理结果。/n

【技术特征摘要】
1.一种可联合实现语义分割和景深估计的网络模型,其特征在于,包括:
特征共享模块,其被配置为将输入图像通过卷积神经网络进行特征提取,得到共享特征;
多任务子网络,其被配置为分别根据各任务目标,基于所述共享特征进行图像处理;所述任务目标包括图像语义分割、图像景深估计;
所述多任务子网络包括多个结构相同的任务子网络以供处理不同任务目标,每个所述任务子网络结构相同,包括:特征筛选模块、注意力集中模块和预测模块;
所述特征筛选模块被配置为根据各任务目标,从共享特征筛选出与任务相关的特征,得到对应的筛选特征;
所述注意力集中模块被配置为提升所述筛选特征与任务目标的相关性,得到集中注意力特征;
所述预测模块被配置为对所述集中注意力特征卷积后输出各任务目标的处理结果。


2.根据权利要求1所述的模型,其特征在于,所述特征共享模块采用编码-解码结构,包括编码单元和解码单元,所述编码单元的输出作为所述解码单元的输入;
所述编码单元包括多个编码块以及与编码块间隔串接的下采样块;
所述解码单元包括与编码块对应的多个解码块以及与下采样块对应的多个上采样块,所述解码块与所述上采样块间隔串接,每个所述编码块与其对应的解码块形成编解码对。


3.根据权利要求2所述的模型,其特征在于,所述特征筛选模块包括与所述编解码对相对应的多个特征筛选单元,以及与所述特征筛选单元间隔串接的上采样块;
每个所述特征筛选单元的输入来源于与其对应的编码块和解码块的输出特征以及前一特征筛选单元输出上采样后的结果。


4.根据权利要求3所述的模型,其特征在于,所述特征筛选单元通过筛选块学习筛选掩码进行特征筛选,其输出表示为:









其中,k为特征筛选单元的编号,N为特征筛选单元的数量,t为任务编号,为任务t在第k特征筛选单元中学习到筛选掩码,为任务t在第k特征筛选单元的筛选块,为任务t在第k特征筛选单元中的输出;

为第i编码块的输出,为第j解码块的输出,第i编码块与第N+1-i解码块构成编解码对;

表示像素级相乘,©表示连接。


5.根据权利要求4所述的模型,其特征在于,所述筛选块包括卷积块以及与卷积块串接的第一激活函数,所述卷积块包括多个拼接的卷积单元,所述卷积单元包括依次连接的标准卷积、批标准化和第二激活函数。


6.根据权利要求1所述的模...

【专利技术属性】
技术研发人员:邵文泽张寒波李海波
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1