用于计算机视觉的方法和装置制造方法及图纸

技术编号:27355309 阅读:50 留言:0更新日期:2021-02-19 13:34
公开了用于计算机视觉的方法和装置。该方法可以包括通过使用神经网络来处理图像的第一输入特征图以获得该图像的输出特征图。所述神经网络可以包括至少两个分支和第一相加块,所述至少两个分支中的每个分支包括至少一个第一膨胀卷积层、至少一个第一上采样块和至少一个第二相加块,在分支中的第一膨胀卷积层的膨胀率与另一分支中的第一膨胀卷积层的膨胀率不同,所述至少一个第一上采样块被配置为对所述第一输入特征图或由所述至少一个第二相加块输出的特征图进行上采样,所述至少一个第二相加块被配置为将被上采样的特征图与所述图像的第二输入特征图分别相加,所述第一相加块被配置为将由所述至少两个分支中的每一个分支输出的特征图相加,所述第一膨胀卷积层具有一个卷积核,以及所述第一膨胀卷积层的输入通道单独执行膨胀卷积以作为所述第一膨胀卷积层的输出通道。积层的输出通道。积层的输出通道。

【技术实现步骤摘要】
【国外来华专利技术】用于计算机视觉的方法和装置


[0001]本公开的实施例总体上涉及信息技术,并且更具体地涉及计算机视觉。

技术介绍

[0002]计算机视觉是涉及如何使计算机能够从数字图像或视频获得高级理解的领域。计算机视觉在许多应用中起着重要作用。计算机视觉系统广泛用于各种视觉任务,例如场景重建、事件检测、视频跟踪、对象识别、语义分割、三维(3D)姿态估计、学习、索引、运动估计、和图像恢复。例如,图像识别系统可以用于视频监控、交通监控、驾驶员辅助系统、自动驾驶汽车、交通监测、人员识别、人机交互、公共安全、事件检测、跟踪、边防警卫和海关、场景分析和分类、图像索引和检索等。
[0003]语义分割被委以以下任务:在像素级别对给定图像进行分类以实现对象分割的效果。语义分割的过程是将输入图像分割为多个区域,这些区域被分类为预定义的类别之一。
[0004]语义分割技术在语义解析、场景理解、人机交互(HMI)、视觉监视、高级驾驶员辅助系统(ADAS)、无人机系统(UAS)等方面具有广泛的实际应用。将语义分割应用于所捕获的图像上,图像可以被分割成语义区域,其中该图像的类别标签(例如,行人、汽车、建筑物、桌子、花)是已知的。当给出适当的查询时,具有分割信息的感兴趣对象、感兴趣区域可以被有效地搜索。
[0005]在自动驾驶汽车的应用中,了解诸如道路场景之类的场景可能是需要的。给定捕获的图像,车辆被要求能够识别可用的道路、车道、灯、人、交通标志、建筑物等,然后车辆可以根据识别结果进行适当的驾驶操作。驾驶操作可能依赖于语义分割的高性能。如图1所示,位于汽车顶部的摄像头捕获图像。语义分割算法可以将捕获的图像中的场景分割为具有12个类别的区域:天空,建筑物、杆、道路标记、道路、人行道、树木、标志符号、栅栏、车辆、行人、和自行车。场景的内容可以为汽车准备下一个操作提供指导。

技术实现思路

[0006]以简化形式提供本
技术实现思路
以介绍选择的构思,在下面的详细描述中进一步描述它们。本
技术实现思路
既不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于限制所要求保护的主题的范围。
[0007]深度学习在增强语义分割方法的性能中起高效作用。例如,基于空间金字塔池(SPP)的深度卷积网络已经用在语义分割中。在语义分割中,SPP由若干并行的特征提取层和融合层组成。并行特征提取层用于捕获不同感受野(receptive field)的特征图,而融合层则用于探测不同感受野的信息。
[0008]基于SPP的传统语义分割网络通常以低分辨率执行SPP以进行特征提取,然后以较大的比率将结果直接上采样到原始输入分辨率以用于最终预测。但是,基于SPP的传统语义分割网络存在以下一些问题:
·
传统的语义分割网络以较低的分辨率执行SPP,这导致较差的提取的特征。
·
传统的语义分割网络以较大的比率对特征图进行上采样,这导致严重的网格效应和较差的视觉质量。
·
传统的语义分割网络可能会导致过多的参数和信息冗余。
[0009]为了克服或减轻上述问题或其他问题中的至少一个问题,本公开的一些实施例提出了一种被称为鲁棒空间金字塔池(RSPP)神经网络的神经网络,其可以应用于各种视觉任务,例如图像分类、对象检测和语义分割。所提出的RSPP神经网络以适当的比率对空间金字塔池(SPP)中的并行卷积层的特征图进行上采样,与包含详细对象信息的低级特征图进行融合,然后再次执行卷积。RSPP神经网络通过将逐深度卷积(depth-wise convolution)与膨胀卷积(dilated convolution)混合(被称为逐深度膨胀卷积)来去除常规卷积。RSPP神经网络能够产生更好的性能。
[0010]根据本公开的一个方面,提出了一种方法。该方法可以包括通过使用神经网络来处理图像的第一输入特征图以获得该图像的输出特征图。所述神经网络可以包括至少两个分支和第一相加块,所述至少两个分支中的每个分支包括至少一个第一膨胀卷积层、至少一个第一上采样块和至少一个第二相加块,在分支中的第一膨胀卷积层的膨胀率与另一分支中的第一膨胀卷积层的膨胀率不同,所述至少一个第一上采样块被配置为对所述第一输入特征图或由所述至少一个第二相加块输出的特征图进行上采样,所述至少一个第二相加块被配置为将被上采样的特征图与所述图像的第二输入特征图分别相加,所述第一相加块被配置为将由所述至少两个分支中的每一个分支输出的特征图相加,所述第一膨胀卷积层具有一个卷积核,以及所述第一膨胀卷积层的输入通道单独执行膨胀卷积以作为所述第一膨胀卷积层的输出通道。
[0011]在一个实施例中,至少两个分支中的每个分支可以还包括第二膨胀卷积层,其被配置为处理第一输入特征图并将其输出的特征图发送给第一上采样块,所述第二膨胀卷积层具有一个卷积核,以及所述第二膨胀卷积层的输入通道单独执行膨胀卷积以作为第二膨胀卷积层的输出通道。
[0012]在一个实施例中,所述神经网络可以还包括第一卷积层,其被配置为减少第一输入特征图的数量。
[0013]在一个实施例中,所述神经网络还包括第二卷积层,其被配置为将由第一相加块输出的特征图调整为预定义类别的数量。
[0014]在一个实施例中,第一卷积层和/或第二卷积层具有1x1的卷积核。
[0015]在一个实施例中,神经网络可以还包括第二上采样块,其被配置为对第二卷积层输出的特征图进行上采样。
[0016]在一个实施例中,神经网络可以还包括softmax层,其被配置为从图像的输出特征图获得预测。
[0017]在一个实施例中,该方法可以还包括通过反向传播算法来训练所述神经网络。
[0018]在一个实施例中,该方法可以还包括对所述图像进行增强。
[0019]在一个实施例中,所述图像的第一输入特征图和第二输入特征图可以是从另一个神经网络获得的。
[0020]在一个实施例中,所述神经网络用于以下中的至少一个:图像分类、对象检测和语义分割。
[0021]根据本公开的另一个方面,提出了一种装置。该装置可以包括至少一个处理器;以及至少一个存储器,其包括计算机程序代码,所述存储器和所述计算机程序代码被配置为与所述至少一个处理器一起工作以使所述装置通过使用神经网络来处理图像的第一输入特征图以获得该图像的输出特征图。所述神经网络可以包括至少两个分支和第一相加块,所述至少两个分支中的每个分支包括至少一个第一膨胀卷积层、至少一个第一上采样块和至少一个第二相加块,在分支中的第一膨胀卷积层的膨胀率与另一分支中的第一膨胀卷积层的膨胀率不同,所述至少一个第一上采样块被配置为对所述第一输入特征图或由所述至少一个第二相加块输出的特征图进行上采样,所述至少一个第二相加块被配置为将被上采样的特征图与所述图像的第二输入特征图分别相加,所述第一相加块被配置为将由所述至少两个分支中的每一个分支输出的特征图相加,所述第一膨胀卷积层具有一个卷积核,以及所述第一膨胀卷积层的输入通道单独执行膨胀卷积以作为所述第一膨胀卷积层的输出通道。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:通过使用神经网络来处理图像的第一输入特征图以获得所述图像的输出特征图;其中所述神经网络包括至少两个分支和第一相加块,所述至少两个分支中的每个分支包括至少一个第一膨胀卷积层、至少一个第一上采样块和至少一个第二相加块,在分支中的所述第一膨胀卷积层的膨胀率与另一分支中的所述第一膨胀卷积层的膨胀率不同,所述至少一个第一上采样块被配置为对所述第一输入特征图或由所述至少一个第二相加块输出的特征图进行上采样,所述至少一个第二相加块被配置为将被上采样的特征图与所述图像的第二输入特征图分别相加,所述第一相加块被配置为将由所述至少两个分支中的每一个分支输出的特征图相加,所述第一膨胀卷积层具有一个卷积核,以及所述第一膨胀卷积层的输入通道单独执行膨胀卷积以作为所述第一膨胀卷积层的输出通道。2.根据权利要求1所述的方法,其中,所述至少两个分支中的每个分支还包括:第二膨胀卷积层,其被配置为处理所述第一输入特征图并将其输出的特征图发送给所述第一上采样块,所述第二膨胀卷积层具有一个卷积核,以及所述第二膨胀卷积层的输入通道单独执行膨胀卷积以作为所述第二膨胀卷积层的输出通道。3.根据权利要求1或2所述的方法,其中,所述神经网络还包括:第一卷积层,其被配置为减少所述第一输入特征图的数量。4.根据权利要求1-3中任一项所述的方法,其中,所述神经网络还包括:第二卷积层,其被配置为将由所述第一相加块输出的特征图调整为预定义类别的数量。5.根据权利要求3或4所述的方法,其中,所述第一卷积层和/或所述第二卷积层具有1x1的卷积核。6.根据权利要求1-5中任一项所述的方法,其中,所述神经网络还包括:第二上采样块,其被配置为对所述第二卷积层输出的特征图进行上采样。7.根据权利要求1-6中任一项所述的方法,其中,所述神经网络还包括:softmax层,其被配置为从所述图像的所述输出特征图获得预测。8.根据权利...

【专利技术属性】
技术研发人员:张志杰
申请(专利权)人:诺基亚技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1