多种类型的图像分析受益于允许分析考虑形状数据的多流架构。形状流可以与主流并行处理图像数据,其中来自主流中网络层的数据被提供为形状流的网络的输入。形状数据可以与主要分析数据融合以产生更准确的输出,例如当形状数据与由主流产生的语义分割数据一起使用时产生准确的边界信息。门控结构可用于连接主流和形状流的中间层,使用较高级别的激活来门控形状流中的较低级别的激活。这种门控结构可以帮助将形状流集中在相关信息上,并减少形状流的任何附加权重。的任何附加权重。的任何附加权重。
【技术实现步骤摘要】
【国外来华专利技术】用于图像分析的形状融合
[0001]相关申请的交叉引用
[0002]本申请主张对(a)美国临时专利申请序列号62/822,685,于2019年3月22日提交的,名称为“用于语义分割的门控形状CNN(Gated Shape CNNs for Semantic Segmentation)”的和(b)美国临时专利申请序列号62/872,650,于2019年7月10日提交的,名称为“用于语义分割的门控形状CNN(Gated Shape CNNs for Semantic Segmentation)”,以及(c)美国非临时申请序列号16/825,192,于2020年3月20日提交的,标题为“用于图像分析的形状融合(Shape Fusion for Image Analysis)”的优先权,其中每一项均通过引用完整地并入本文,并用于所有目的
技术介绍
[0003]计算机视觉正被用于越来越多的各种任务,这些任务伴随着不断增加的性能需求而产生。对于自动驾驶或辅助驾驶或机器人控制等应用来说,准确的对象分类至关重要。常规方法并不总是提供这些和其他此类应用所需的精度水平。例如,传统的图像分割方法形成了一个密集的图像表示,其中颜色、形状和纹理信息都在深度神经网络内一起处理,这可能并不理想,因为这些参数包含与识别相关的非常不同的信息量。
附图说明
[0004]根据本公开的各种实施例将参考附图进行描述,其中:
[0005]图1示出了根据至少一个实施例的可使用的一组车辆相机;
[0006]图2A、图2B、图2C和图2D示出了根据至少一个实施例的可被分析的附近环境中的对象的图像;
[0007]图3示出了根据至少一个实施例的图像处理管道;
[0008]图4示出了根据至少一个实施例的通过图像处理管道的各种状态的数据;
[0009]图5示出了根据至少一个实施例的输入图像的形状流输出;
[0010]图6A和图6B示出了根据至少一个实施例的针对图像的不同视图的语义分割;
[0011]图7示出了根据至少一个实施例的一组输入图像的边界输出;
[0012]图8示出了根据至少一个实施例的自动化或半自动化设备的组件;
[0013]图9示出了根据至少一个实施例的部分基于从图像数据确定的边界来确定要采取的动作的过程;
[0014]图10示出了根据至少一个实施例的用于分析图像数据的过程;
[0015]图11A示出了根据至少一个实施例的推理和/或训练逻辑;
[0016]图11B示出了根据至少一个实施例的推理和/或训练逻辑;
[0017]图12示出了根据至少一个实施例的示例数据中心系统;
[0018]图13示出了根据至少一个实施例的计算机系统;
[0019]图14示出了根据至少一个实施例的计算机系统;
[0020]图15和图16示出了根据一个或更多个实施例的图形处理器的至少一部分;
[0021]图17A示出了根据至少一个实施例的自主车辆的示例;
[0022]图17B示出了根据至少一个实施例的图17A中的自主车辆的示例系统架构;和
[0023]图17C示出了根据至少一个实施例的一个或更多个基于云服务器和图17A中的自主车辆之间的通信系统。
具体实施方式
[0024]计算机视觉通常涉及一个或更多个计算设备分析图像数据(例如,一个或更多个图像或视频内容)以尝试确定或提取关于在该图像数据中表示的对象的信息,例如对关于这些对象的某些东西进行分类。这可以包括,例如,分析从捕获的图像数据中提取的高维数据以尝试识别图像数据中表示的对象或对象类型,并生成标识这些对象的人类可读的描述或标签。各种方法都可以利用经过训练的深度神经网络来推理所捕获图像数据的特定方面,例如图像数据中表示的对象的语义边界。这些对象的边界在本文中被称为语义边界,因为每个边界可以与语义标签或其他语义数据相关联,例如可以识别由给定边界定义的对象类型。这种方法可以帮助识别图像数据中的对象,以及形状、位置和到这些对象的潜在距离,这对于涉及导航或组件操纵等任务的应用程序是有益的。
[0025]图1示出了一个示例车辆100,该车辆100可以利用各种实施例的各个方面来达到这样的目的。如图所示,车辆100包括在车辆的不同位置处的多个相机或成像传感器,以便捕获代表车辆所在环境的图像数据。这些可以包括至少两个立体相机组件,包括前置和后置立体相机168。这些相机捕获的立体数据可以用于识别车辆100前面和后面的对象,其中这些对象可以包括其他车辆、行人、路标等。虽然来自任何一个相机的图像数据都可以使用计算机视觉进行分析以识别这些对象的类型,但是数据的立体方面使得能够确定车辆100到那些对象的距离。这对于诸如行人检测和碰撞避免等任务或应用很重要。在这个例子中,专用立体相机可以支持视差估计,而这些相机中的任何一个都可以支持光流或一般计算机视觉确定,可包括对象识别。
[0026]图2A和图2B示出了从一辆车辆的前置立体相机捕获的立体图像对的左图像202和对应的右图像204。可以单独分析单个图像(或仅捕获和分析单个图像)以识别图像中的对象,例如其他车辆、车道标记和街道标志。在需要距离信息的情况下,图像202、图像204中这些对象的位置差距或从前置相机到这些对象的距离可用于确定视差。在一些实施例中,来自这些图像中的至少一个的数据可用于生成如图2C所示的语义映射206,该语义映射包括在图像数据中识别的对象的标识,以及每个对象的类型的指示。在同样需要距离信息的实施例中,视差信息可以与语义分割一起使用以创建深度映射208,如图2D所示,其中各种识别对象的距离可以用不同的颜色或阴影表示,在这个例子中,颜色较浅的对象比颜色深的对象更靠近相机。当与计算机视觉数据结合时,这种深度数据不仅可以提供附近对象的标识,还可以提供与这些对象的相对距离。通过随时间监控此信息,还可以确定其他信息,例如相对速度和航向,这对于导航等任务很重要。
[0027]如上所述,诸如图像分割之类的过程可以利用表示颜色、形状和纹理信息一起处理在一个网络,如深卷积神经网络(CNN),但是这种方法可能并不理想,因为它们包含与识别相关的非常不同类型的信息。根据和各种实施例一致的方法改为利用多流CNN架构进行图像分析(例如,语义分割),其将形状信息确定为单独的处理分支或“形状流”,其可以与主
流并行处理信息,例如可以利用常规训练的神经网络来执行图像分析。在至少一个实施例中,主流中的较高级别激活可以用于对形状流中的较低级别激活进行门控。这有助于去除噪声并使形状流能够专注于处理相关的边界相关信息。在至少一个实施例中,可以将非常浅的架构用于在图像级分辨率上运行的形状流,在对象边界周围产生清晰的预测,并且相对于不使用形状流的方法显著提高在更薄和更小的对象上的性能。
[0028]在至少一个实施例中,主流可以利用卷积神经网络(CNN),例如执行图像语义分割。在这样的网络中,传统CNN的全连接层可以转换为卷积层。单独使用分类架构进行密集像素预测本文档来自技高网...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的方法,包括:接收包括一个或更多个对象的场景图像;处理所述图像以推理所述图像的分割数据;与推理所述分割数据并行地处理所述图像的数据,以推理所述一个或更多个对象的形状数据;和将所述形状数据与所述分割数据融合,以推理对应于所述一个或更多个对象的所述图像的分割。2.如权利要求1所述的计算机实现的方法,还包括:使用一个或更多个卷积神经网络(CNN)的连接中间层来推理所述分割数据和所述形状数据。3.如权利要求2所述的计算机实现的方法,还包括:在所述一个或更多个CNN的一个或更多个层上将所述形状数据与所述分割数据融合。4.如权利要求2所述的计算机实现的方法,其中使用多个门控卷积层连接所述中间层。5.如权利要求4所述的计算机实现的方法,其中所述门控卷积层在相应CNN的残差块之间交错。6.如权利要求1所述的计算机实现的方法,所述用于图像的数据由形状流的形状网络来处理,并且其中所述图像的数据从主流的分割网络层接收以用于处理所述图像来推理所述分割。7.如权利要求4所述的计算机实现的方法,其中所述分割网络中的高级激活用于门控所述形状网络中的低级激活。8.如权利要求1所述的计算机实现的方法,还包括:使用融合网络的层将所述形状数据与所述分割数据融合。9.如权利要求8所述的计算机实现的方法,还包括:使用双任务损失函数训练所述融合网络,以优化所述融合网络的网络参数。10.如权利要求8所述的计算机实现的方法,其中所述融合网络包括金字塔池化(ASPP)模块,用于使用所述分割数据对所述形状数据进行多尺度池化。11.一种系统,包括:至少一个处理器;和存储器,所述存储器包括指令,当所述指令由至少一个处理器执行时,使所述系统:接收包括一个或更多个对象的表示的图像;使用分割网络处理所述图像以推理所述图像的分割数据;使用形状网络与推理所述分割数据并行地处理所述图像的数据,以推理所述一个或更多个对象的形状数据;和将所述形状数据与...
【专利技术属性】
技术研发人员:D,
申请(专利权)人:辉达公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。