当前位置: 首页 > 专利查询>罗伯特专利>正文

用于训练尺度等变卷积神经网络的设备和方法技术

技术编号:32805339 阅读:9 留言:0更新日期:2022-03-26 19:57
用于训练尺度等变卷积神经网络的设备和方法。用于训练尺度等变卷积神经网络(60)的计算机实现的方法(1),其中尺度等变卷积神经网络(60)被配置为确定表征尺度等变卷积神经网络(60)的输入图像(x)的分类的输出信号(y),进一步其中尺度等变卷积神经网络(60)包括卷积层,其中卷积层被配置为基于卷积层的多个可操纵滤波器和卷积输入来提供卷积输出,其中卷积输入基于输入图像(x),并且可操纵滤波器基于多个基础滤波器被确定,其中用于训练的方法包括训练多个基础滤波器。括训练多个基础滤波器。括训练多个基础滤波器。

【技术实现步骤摘要】
用于训练尺度等变卷积神经网络的设备和方法
[0001]本专利技术涉及一种用于训练尺度等变卷积神经网络的方法、一种用于利用尺度等变卷积神经网络对图像进行分类的方法、一种训练系统、一种计算机程序和一种计算机可读存储介质。
现有技术
[0002]公开了一种包括尺度等变卷积层的卷积神经网络。
[0003]本专利技术的优点卷积神经网络(CNN)可以有效地用作图像分类器。卷积神经网络之所以工作得如它们所做的一样好,一个主要原因是它们的平移不变特性。这意味着,无论图像的位置如何,CNN的卷积层都将为图像的相同对象输出相同的值。
[0004]然而,卷积神经网络不具有嵌入式机制来处理其他类型的变换,诸如尺度。然而,用于图像分类的CNN经常面临在图像中对不同尺度下的对象进行正确分类的挑战。例如,如果CNN被用于对来自相机的图像视频流进行分类,其中对象朝向相机移动并且因此在不同的图像上以不同的尺度出现,则可以是这种情况。
[0005]典型地,为了计及尺度方面的改变,利用不同尺度下的对象训练CNN。然而,如通过公开的,将尺度等变的机制并入CNN中改进了CNN的性能,其中性能可以理解为CNN对图像进行正确分类的能力。尺度等变机制基于构造神经网络的卷积层的滤波器,使得它们是预定的多个基础滤波器(也称为基础函数)的加权和,其中可以在CNN的训练期间来训练权重。这里,卷积层的滤波器也被称为可操纵滤波器(steerable filter)。公开了将由具有2D高斯包络的2D Hermite多项式构造的基础滤波器。
[0006]虽然通过将尺度等变并入CNN的卷积层中可以增加CNN的性能,但是专利技术人发现在尺度等变中存在不显著的误差。
[0007]根据权利要求1所述的具有特征的方法的优点在于,可以训练具有尺度等变机制的CNN,其中学习CNN的卷积层的基础滤波器,使得卷积层的自等变误差被最小化。这样,可以根据CNN的训练数据来学习基础滤波器,这进而改进了CNN的性能。

技术实现思路

[0008]在第一方面中,本专利技术涉及一种用于训练尺度等变卷积神经网络的计算机实现的方法,其中尺度等变卷积神经网络被配置为确定表征尺度等变卷积神经网络的输入图像的分类的输出信号,进一步其中尺度等变卷积神经网络包括卷积层,其中卷积层被配置为基于卷积层的多个可操纵滤波器和卷积输入来提供卷积输出,其中卷积输入基于输入图像,并且可操纵滤波器基于多个基础滤波器被确定,其中用于训练的方法包括训练多个基础滤
波器。
[0009]尺度等变卷积神经网络可以理解为包括卷积层的卷积神经网络,其中卷积层能够执行至卷积层的输入的尺度等变卷积。特别地,卷积层可以包括从多个基础滤波器(也称为基础函数)确定的多个可操纵滤波器。在本专利技术的上下文中,尺度等变卷积神经网络可以理解为图像分类器。
[0010]输出信号可以将输入图像分类为多个类别中的至少一个类别。替代地或附加地,输出信号可以表征至少一个对象的分类及其在输入图像中的位置。替代地或附加地,输出信号可以表征输入图像到多个类别的语义分割。
[0011]尺度等变卷积神经网络可以被配置为接受不同类型的输入图像。输入图像例如可以是相机图像、LIDAR图像、雷达图像、超声波图像或如由热相机获得的图像。还可以设想,输入图像例如通过渲染计算机实现的虚拟场景或作为计算机实现的模拟的结果而被合成生成。输入图像也可以通过绘制数字图像来获得。还可以设想,尺度等变卷积神经网络被配置为接受多个输入图像,所述多个输入图像例如来自相同类型的多个传感器或者来自不同传感器的图像的组合。
[0012]输入图像可以优选地是张量的形式。为了确定输出信号,输入图像被转发通过尺度等变卷积神经网络的多个层,其中每个层提供中间输出,其中输出要么由另一层的中间输出确定,要么由输入图像本身确定。信息流确定了多个层的次序。这可以理解为多个层是具有预定次序的层序列。如果第一层接受第二层的中间输出作为输入,则第一层被认为在第二层之前,并且第二层被认为在第一层之后。没有前继的层称为输入层,而没有后继的层称为输出层。
[0013]卷积层可以被放置在沿着层序列的任意位置。如果卷积层被放置在序列的开始,则至卷积层的输入、即卷积输入直接是输入图像。否则,通过处理在卷积层之前具有至少一层的输入图像来获得卷积输入。
[0014]卷积输入可以优选地被给出为预定义高度和宽度以及预定义数量的通道的张量。卷积层的每个基础滤波器可以理解为能够沿着卷积输入的宽度和高度滤波预定义区域,并且沿着卷积输入的通道滤波预定义深度。优选地,基础滤波器沿着所有通道滤波(即,基础滤波器“看到”所有通道)。预定义区域也可以理解为基础滤波器的大小。例如,基础滤波器可以被配置为沿着三通道图像(例如,RGB图像)的所有通道操作,其中滤波器沿着图像的高度覆盖五个像素,并且沿着图像的宽度覆盖五个像素。因此,滤波器将具有五乘五的大小。优选地,基础滤波器可以以张量的形式表示,其中张量具有与基础滤波器的宽度和高度相等的宽度和高度,以及与滤波器看到的通道数量相等的通道数量。
[0015]优选地,来自多个基础滤波器的基础滤波器都具有相同的大小,并且看到相同数量的通道。这样,可操纵卷积可以有利地由基础滤波器的加权和来确定。
[0016]可以通过根据来自多个尺度的尺度缩放第一多个初始基础滤波器并基于多个缩放的初始基础滤波器提供多个基础滤波器来确定多个基础滤波器。
[0017]缩放基础滤波器可以被理解为根据基础滤波器的大小与缩放值的乘积来增加或减小基础滤波器的大小。如果尺度值在0和1之间,则基础滤波器缩小尺度(downscale)。如果尺度值在1以上,则它放大尺度(upscale)。可以通过缩放基础滤波器的每个通道来执行缩放。
[0018]为了使来自多个基础滤波器的基础滤波器具有相同的大小,多个缩放的初始基础滤波器中的基础滤波器被裁剪或填充,使得它们具有与初始滤波器相同的大小。
[0019]在本专利技术的上下文中,卷积可以优选地理解为两个张量之间的运算,其中卷积的输出也是张量。
[0020]可以想象,训练多个基础滤波器包括以下步骤:
●ꢀ
基于第一多个向量、第二多个向量和第三多个标量值确定多个中间基础滤波器;
●ꢀ
基于训练图像(x
i
)确定训练卷积输入;
●ꢀ
基于根据来自多个尺度的尺度缩放训练卷积输入来确定第一卷积结果;
●ꢀ
基于利用尺度的逆来缩放多个中间滤波器来确定第二卷积结果;
●ꢀ
确定第一卷积结果和第二卷积结果之间的差值;
●ꢀ
确定相对于第一多个向量、第二多个向量和第三多个标量值的差值的梯度;
●ꢀ
根据梯度调整第一多个向量的向量、第二多个向量的向量和第三多个标量值的标量值;
●ꢀ
通过利用多个尺度中的每个尺度缩放中间滤波器中的每个基础滤波器来确定多个缩放的基础滤波器;
●ꢀ
提供多个缩放的基础滤波器作为多个基础滤波器本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.用于训练尺度等变卷积神经网络(60)的计算机实现的方法(1),其中尺度等变卷积神经网络(60)被配置为确定表征尺度等变卷积神经网络(60)的输入图像(x)的分类的输出信号(y),进一步其中尺度等变卷积神经网络(60)包括卷积层,其中卷积层被配置为基于卷积层的多个可操纵滤波器和卷积输入来提供卷积输出,其中卷积输入基于输入图像(x),并且可操纵滤波器基于多个基础滤波器被确定,其中用于训练的方法包括训练多个基础滤波器。2.根据权利要求1所述的方法(1),其中训练所述多个基础滤波器包括以下步骤:

基于第一多个向量、第二多个向量和第三多个标量值确定(S1,S8)多个中间基础滤波器;

基于训练图像(x
i
)确定(S2)训练卷积输入;

基于根据来自多个尺度的尺度缩放训练卷积输入来确定(S3)第一卷积结果;

基于利用尺度的逆来缩放所述多个中间滤波器来确定(S4)第二卷积结果;

确定(S5)第一卷积结果和第二卷积结果之间的差值;

确定(S6)相对于第一多个向量、第二多个向量和第三多个标量值的差值的梯度;

根据梯度调整(S7)第一多个向量的向量、第二多个向量的向量和第三多个标量值的标量值;

通过利用所述多个尺度中的每个尺度缩放中间滤波器中的每个基础滤波器来确定(S9)多个缩放的基础滤波器;

提供(S10)所述多个缩放的基础滤波器作为多个基础滤波器。3.根据权利要求2所述的方法(1),其中通过根据尺度缩放训练卷积输入并将缩放的训练卷积输入与所述多个中间基础滤波器卷积来确定第一卷积结果。4.根据权利要求2或3所述的方法(1),其中第二卷积结果通过以下各项来确定:利用尺度的逆来缩放所述多个中间滤波器,将训练卷积输入与缩放的中间滤波器卷积以获得第一中间结果,利用尺度来缩放中间结果以获得第二中间结果,以及将第二中间结果与尺度相乘以获得第二卷积结果。5.根据权利要求2至4中任一项所述的方法(1),其中确定所述多个中间基础滤波器的步骤进一步包括以下步骤:

基于正交化第一多个向量来确定正交列的第一矩阵;

基于正交化第二多个向量来确定正交列的第二矩阵;

确定第三矩阵,其中所述矩阵是矩形对角矩阵,并且通过确定将自然指数函数应用于第三多个标量值中的标量值的结果并将预定义值添加到所述结果来确定第三矩阵S的主对角线的每个...

【专利技术属性】
技术研发人员:I
申请(专利权)人:罗伯特
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1