用用于容错及波动鲁棒性的神经网络除抖动的方法及装置制造方法及图纸

技术编号:25187925 阅读:22 留言:0更新日期:2020-08-07 21:15
本申请涉及为了在极限状况的容错及波动鲁棒性而提供的,为了使用神经网络去除视频上的抖动而从由于晃动的摄像头而生成的视频检测抖动的方法,其特征在于包括:计算装置生成对应于第t图像内的各客体的各第t掩码的步骤;对各第t掩码、各第t剪切的图像、各第t‑1掩码及各第t‑1剪切的图像适用至少一次第二神经网络运算生成包含于第t图像的各客体像素的各第t客体运动向量的步骤;以及参照各第t客体运动向量生成对应于第t图像内的像素中各参考像素的各第t抖动向量的步骤。本发明专利技术可用于视频稳定化、超精密客体追踪、行动预测、运动分解等。

【技术实现步骤摘要】
用用于容错及波动鲁棒性的神经网络除抖动的方法及装置
本专利技术涉及与自动行驶车辆一起利用的学习方法及学习装置,更具体来讲涉及为了使用至少一个神经网络(NeuralNetwork)去除视频(Video)上的抖动(Jittering),从由于晃动的摄像头而生成的所述视频检测抖动的学习方法及学习装置、以及利用其的测试方法及测试装置。
技术介绍
深度卷积神经网络(DeepConvolutionNeuralNetworks;DeepCNNs)是深度学习领域发生的惊人的发展核心。CNNs为了解决文字识别问题而自90年代以来开始使用,而像目前广泛使用是则多亏近来的研究结果。这种深度CNN在2012年ImageNet图像分类比赛打败其他竞争者获胜。自那以后卷积神经网络在机器学习(MachineLearning)领域成为了非常有用的工具。CNN还广泛用于车辆的自动行驶领域,其主要执行分析通过附着于车辆的摄像头获取的图像检测障碍物,检测自由空间(FreeSpace)等功能使得车辆能够安全行驶。然而,如上利用CNN使得车辆自动行驶的方法在特定状况下可能难以执行。即,CNN须使用通过摄像头得到的图像,由于摄像头晃动等问题导致图像严重晃动的情况下,视频的各帧发生图像显著改变的抖动(Jittering)现象。发生这种抖动现象的情况下CNN难以追踪图像上的客体的运动。尤其,这种抖动现象在常常越野行驶的军用车辆自动行驶的状况下经常发生,防止这种现象的方法非常重要。用于防止这种抖动的现有技术有物理地测定摄像头的运动后利用其补正发生抖动的图像的方法,这种方法需要大量费用、摄像头模块的重量过大、使用多个装置,因此引起故障的危险性高。现有技术中有不同于以上所述物理性方法的软件性方法,但该方法也只考虑图像的客体的光流,因此具有补正发生抖动的图像的过程中导致图像发生很大失真的问题。
技术实现思路
技术问题本专利技术的目的是解决上述问题。本专利技术的另一目的是通过多个神经网络(NeuralNetwork)补正发生抖动(Jittering)的图像使得即使摄像头晃动也能够获取合适的图像。技术方案为了达成如上所述的本专利技术的目的且实现下述本专利技术的特征性效果的本专利技术的特征性的构成如下所述。根据本专利技术的一个方面,提供一种为了使用至少一个神经网络(NeuralNetwork)去除视频(Video)上的抖动(Jittering)而从由于晃动的摄像头而生成的所述视频检测抖动的方法,其特征在于,包括:(a)获取到对应于所述视频的第t帧的第t图像时,计算装置使第一神经网络对所述第t图像适用至少一次第一神经网络运算生成对应于所述第t图像内的各客体的第t掩码的步骤;(b)所述计算装置使第二神经网络对(i)各所述第t掩码、(ii)与其对应的作为所述第t图像的一部分的各第t剪切的(Cropped)图像、(iii)各第t-1掩码及(iv)与其对应的作为第t-1图像的一部分的各第t-1剪切的图像适用至少一次第二神经网络运算生成关于包含于所述第t图像的对应于各所述客体的各客体像素的各第t客体运动向量(ObjectMotionVector)的步骤;以及(c)所述计算装置使抖动预测单元(JitteringEstimationUnit)参照各所述第t客体运动向量生成对应于所述第t图像内的像素中各参考像素(ReferencePixel)的各第t抖动向量(JitteringVector)的步骤。根据一个实施例,其特征在于,还包括:(d)所述计算装置使所述抖动预测单元参照所述第t抖动向量生成缓解了所述第t图像的抖动的第t调整图像(AdjustedImage)的步骤。根据一个实施例,其特征在于,还包括:(e)所述计算装置使学习单元(LearningUnit)参照(i)通过用于生成所述第t抖动向量的过程优化的第t调整客体运动向量及(ii)优化之前的所述第t客体运动向量算出至少一个损失,并使得反向传播所述损失学习所述第二神经网络的至少一个参数的至少一部分的步骤。根据一个实施例,其特征在于,在所述(c)步骤中,所述计算装置使所述抖动预测单元还参照(i)表示在通过所述摄像头拍摄所述第t-1图像的时间点与拍摄所述第t图像的时间点之间对应于所述第t图像内的各像素的各地点运动的程度的各第t光流向量(OpticalFlowVector)及(ii)表示在通过所述摄像头拍摄所述第t-1图像的时间点与拍摄所述第t图像的时间点之间在三维上各所述地点运动的程度的各第tFPV向量生成所述第t抖动向量。根据一个实施例,其特征在于,在所述(d)步骤中,所述计算装置使所述抖动预测单元算出最小化以下数学式的以生成所述第t抖动向量,表示所述第t抖动向量,表示所述第tFPV向量,表示所述第t客体运动向量,表示第t-1FPV向量,表示第t-1客体运动向量,λv及λo表示关于及的各加权值。根据一个实施例,其特征在于,所述数学式使得对满足以下条件的项(Term)有效,表示作为所述第t光流向量中的一部分的关于所述参考像素的第一的第t光流向量,表示关于非所述参考像素的其余像素的第二的第t光流向量,表示关于作为所述第t客体运动向量中的一部分的是所述客体像素且是所述参考像素的特定像素的第t客体运动向量,Σ符号下端的i,j∈NB(x,y)表示使用关于包括指定像素的网格内的所述参考像素中的一部分的信息,wij,xy表示关于所述网格内的所述指定像素的至少一个位置的各加权值。根据一个实施例,其特征在于,所述计算装置使所述抖动预测单元算出最小化以下数学式的表示所述第t抖动向量,表示所述第tFPV向量,表示所述第t客体运动向量,表示关于第t-k图像的第t-kFPV向量,表示关于所述第t-k图像的第t-k客体运动向量,wk表示关于及的各加权值,K为指定常数。根据一个实施例,其特征在于,在所述(b)步骤中,所述第二神经网络包括第2_1神经网络及第2_2神经网络,所述第2_1神经网络执行至少一次对各所述第t掩码、各所述第t剪切的图像、各所述第t-1掩码及各所述第t-1剪切的图像进行分析的包含于所述第二神经网络运算的第2_1神经网络运算生成至少一个中间特征地图(IntermediateFeatureMap),所述第2_2神经网络参照对获取到所述第t图像之前输入的值的分析内容,对所述中间特征地图适用至少一次包含于所述第二神经网络运算的第2_2神经网络运算生成所述第t客体运动向量。根据一个实施例,其特征在于,所述第2_2神经网络使得(i)反映对关于第一图像至所述第t-1图像中至少一部分的值的分析,使用所述第2_1神经网络生成的所述第2_2神经网络的状态向量(StateVector)生成所述第t客体运动向量,(ii)更新所述状态向量。根据一个实施例,其特征在于,所述参考像素是位于所述第t图像上的所述网格的网格单元(GridCell)的边界(Boundary)上的顶点。根据一个实施例,其特征在于,在所述本文档来自技高网
...

【技术保护点】
1.一种方法,是为了使用至少一个神经网络去除视频上的抖动而从由于晃动的摄像头而生成的所述视频检测抖动的方法,其特征在于,包括:/n(a)获取到对应于所述视频的第t帧的第t图像时,计算装置使第一神经网络对所述第t图像适用至少一次第一神经网络运算生成对应于所述第t图像内的各客体的第t掩码的步骤;/n(b)所述计算装置使第二神经网络对(i)各所述第t掩码、(ii)与其对应的作为所述第t图像的一部分的各第t剪切的图像、(iii)各第t-1掩码及(iv)与其对应的作为第t-1图像的一部分的各第t-1剪切的图像适用至少一次第二神经网络运算生成关于包含于所述第t图像的对应于各所述客体的各客体像素的各第t客体运动向量的步骤;以及/n(c)所述计算装置使抖动预测单元参照各所述第t客体运动向量生成对应于所述第t图像内的像素中各参考像素的各第t抖动向量的步骤。/n

【技术特征摘要】
20190131 US 16/262,9961.一种方法,是为了使用至少一个神经网络去除视频上的抖动而从由于晃动的摄像头而生成的所述视频检测抖动的方法,其特征在于,包括:
(a)获取到对应于所述视频的第t帧的第t图像时,计算装置使第一神经网络对所述第t图像适用至少一次第一神经网络运算生成对应于所述第t图像内的各客体的第t掩码的步骤;
(b)所述计算装置使第二神经网络对(i)各所述第t掩码、(ii)与其对应的作为所述第t图像的一部分的各第t剪切的图像、(iii)各第t-1掩码及(iv)与其对应的作为第t-1图像的一部分的各第t-1剪切的图像适用至少一次第二神经网络运算生成关于包含于所述第t图像的对应于各所述客体的各客体像素的各第t客体运动向量的步骤;以及
(c)所述计算装置使抖动预测单元参照各所述第t客体运动向量生成对应于所述第t图像内的像素中各参考像素的各第t抖动向量的步骤。


2.根据权利要求1所述的方法,其特征在于,还包括:
(d)所述计算装置使所述抖动预测单元参照所述第t抖动向量生成缓解了所述第t图像的抖动的第t调整图像的步骤。


3.根据权利要求1所述的方法,其特征在于,还包括:
(e)所述计算装置使学习单元参照(i)通过用于生成所述第t抖动向量的过程优化的第t调整客体运动向量及(ii)优化之前的所述第t客体运动向量算出至少一个损失,并使得反向传播所述损失学习所述第二神经网络的至少一个参数的至少一部分的步骤。


4.根据权利要求1所述的方法,其特征在于,在所述(c)步骤中,
所述计算装置使所述抖动预测单元还参照(i)表示在通过所述摄像头拍摄所述第t-1图像的时间点与拍摄所述第t图像的时间点之间对应于所述第t图像内的各像素的各地点运动的程度的各第t光流向量及(ii)表示在通过所述摄像头拍摄所述第t-1图像的时间点与拍摄所述第t图像的时间点之间在三维上各所述地点运动的程度的各第tFPV向量生成所述第t抖动向量。


5.根据权利要求2所述的方法,其特征在于:
在所述(d)步骤中,所述计算装置使所述抖动预测单元算出最小化以下数学式的以生成所述第t抖动向量,




表示所述第t抖动向量,表示所述第tFPV向量,表示所述第t客体运动向量,表示第t-1FPV向量,表示第t-1客体运动向量,λv及λ0表示关于及的各加权值。


6.根据权利要求5所述的方法,其特征在于:
所述数学式使得对满足以下条件的项有效,




表示作为所述第t光流向量中的一部分的关于所述参考像素的第一的第t光流向量,表示关于非所述参考像素的其余像素的第二的第t光流向量,表示关于作为所述第t客体运动向量中的一部分的是所述客体像素且是所述参考像素的特定像素的第t客体运动向量,Σ符号下端的i,j∈NB(x,y)表示使用关于包括指定像素的网格内的所述参考像素中的一部分的信息,wij,xy表示关于所述网格内的所述指定像素的至少一个位置的各加权值。


7.根据权利要求4所述的方法,其特征在于:
所述计算装置使所述抖动预测单元算出最小化以下数学式的




表示所述第t抖动向量,表示所述第tFPV向量,表示所述第t客体运动向量,表示关于第t-k图像的第t-kFPV向量,表示关于所述第t-k图像的第t-k客体运动向量,wk表示关于及的各加权值,K为指定常数。


8.根据权利要求1所述的方法,其特征在于:
在所述(b)步骤中,所述第二神经网络包括第2_1神经网络及第2_2神经网络,
所述第2_1神经网络执行至少一次对各所述第t掩码、各所述第t剪切的图像、各所述第t-1掩码及各所述第t-1剪切的图像进行分析的包含于所述第二神经网络运算的第2_1神经网络运算生成至少一个中间特征地图,
所述第2_2神经网络参照对获取到所述第t图像之前输入的值的分析内容,对所述中间特征地图适用至少一次包含于所述第二神经网络运算的第2_2神经网络运算生成所述第t客体运动向量。


9.根据权利要求8所述的方法,其特征在于:
所述第2_2神经网络使得(i)反映对关于第一图像至所述第t-1图像中至少一部分的值的分析,使用所述第2_1神经网络生成的所述第2_2神经网络的状态向量生成所述第t客体运动向量,(ii)更新所述状态向量。


10.根据权利要求1所述的方法,其特征在于:
所述参考像素是位于所述第t图像上的所述网格的网格单元的边界上的顶点。


11.根据权利要求1所述的方法,其特征在于:
在所述(a)步骤中,
所述第一神经网络包括至少一个RPN、至少一个卷积层及至少一个池化层,
所述RPN生成至少一个ROI时,所述第一神经网络利用双线性插值法从所述第t图像上选择对应于所述ROI的至少一个区域后,对其适用至少一次所述卷积层的运算生成所述第t掩码。


12.一种方法,是为了使用至少一个神经网络去除测试用视频上的抖动而从由于晃动的摄像头而生成的所述测试用视频去除所述抖动的测试方法,其特征在于,包括:
(a)学习装置(1)获取到对应于学习用视频上的学习用第t帧的学习用第t图像时,使第一神经网络对所述学习用第t图像适用至少一次第一神经网络运算生成对应于所述学习用第t图像内的各学习用客体的学习用第t掩码,(2)使第二神经网络对(i)各所述学习用第t掩码、(ii)与其对应的作为所述学习用第t图像的一部分的各学习用第t剪切的图像、(iii)各学习用第t-1掩码及(iv)与其对应的作为学习用第t-1图像的一部分的各学习用第t-1剪切的图像适用至少一次第二神经网络运算生成关于包含于所述学习用第t图像的对应于各所述学习用客体的各学习用客体像素的各学习用第t客体运动向量,(3)使抖动预测单元参照各所述学习用第t客体运动向量生成对应于所述学习用第t图像内的像素中各学习用参考像素的各学习用第t抖动向量,(4)使学习单元参照(i)通过用于生成所述学习用第t抖动向量的过程优化的学习用第t调整客体运动向量及(ii)优化之前的所述学习用第t客体运动向量算出至少一个损失,并使得反向传播所述损失完成了所述第二神经网络的至少一个参数的至少一部分的学习的状态下,获取到对应于所述测试用视频的测试用第t帧的测试用第t图像时,测试装置使所述第一神经网络对所述测试用第t图像适用第一神经网络运算生成对应于所述测试用第t图像内的各测试用客体的各测试用第t掩码的步骤;
(b)所述测试装置使所述第二神经网络对(i)各所述测试用第t掩码、(ii)与其对应的作为所述测试用第t图像的一部分的各测试用第t剪切的图像、(iii)各测试用第t-1掩码及(iv)与其对应的作为测试用第t-1图像的一部分的各测试用第t-1剪切的图像适用第二神经网络运算生成关于包含于所述测试用第t图像的对应于各所述测试用客体的各测试用客体像素的各测试用第t客体运动向量的步骤;以及
(c)所述测试装置使所述抖动预测单元参照各所述测试用第t客体运动向量生成对应于所述测试用第t图像内的像素中各测试用参考像素的各测试用第t抖动向量的步骤。


13.根据权利要求12所述的方法,其特征在于,包括:
(d)所述计算装置使所述抖动预测单元参照所述测试用第t抖动向量生成缓解了所述测试用第t图像的抖动的测试用第t调整图像的步骤。


14.一种装置,是为了使用至少一...

【专利技术属性】
技术研发人员:金桂贤金镕重金寅洙金鹤京南云铉夫硕焄成明哲吕东勋柳宇宙张泰雄郑景中诸泓模赵浩辰
申请(专利权)人:斯特拉德视觉公司
类型:发明
国别省市:韩国;KR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1