当前位置: 首页 > 专利查询>清华大学专利>正文

利用卷积神经网络进行视频处理的方法及装置制造方法及图纸

技术编号:23789593 阅读:90 留言:0更新日期:2020-04-15 02:00
本发明专利技术实施例提供一种利用卷积神经网络进行视频处理的方法及装置,其中方法包括:将任意一帧图像作为目标图像,选择在目标图像时序前的另一帧图像作为参考图像,获得目标图像相对卷积神经网络中第i+1层卷积层的原始帧;将参考图像经过卷积神经网络中第i层卷积层计算的结果和原始帧分别输入至卷积神经网络中的激活函数,并计算两个输出结果的差值,获得目标图像相对卷积神经网络中第i+1层卷积层的差分帧;将目标图像相对卷积神经网络中第i+1层卷积层的差分帧输入至卷积神经网络中第i+1层卷积层,获得目标图像经过卷积神经网络中第i+1层卷积层计算的结果。本发明专利技术实施例相比现有逐帧处理的技术,能够提高神经网络的运算效率。

Method and device of video processing using convolutional neural network

【技术实现步骤摘要】
利用卷积神经网络进行视频处理的方法及装置
本专利技术涉及图像处理
,更具体地,涉及利用卷积神经网络进行视频处理的方法及装置。
技术介绍
卷积神经网络(ConvolutionalNeuralNetwork,CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网络已经成为在图像识别、语音识别等领域最常用的算法,这一类方法需要非常多的计算量,需要设计专用的加速器。但由于可移动设备资源受限,目前在GPU和FPGA(FieldProgrammableGateArray,现场可编程门阵列)平台上设计的加速器很难在这些要求低功耗、资源受限的平台(例如移动操作系统)上使用。目前神经网络被广泛应用于追踪领域,神经网络往往用于处理视频任务,即神经网络会处理连续的帧图像,用于追踪或者识别视频中的物体。多帧处理需要加速器按时计算结果响应,但同时,多帧处理又给加速器带来了非常多的计算量,增大了延时。目前大部分方法均采用逐帧处理的方式,即一帧图像经过神经网络的所有卷积层处理后,再处理下一帧图像,但这样的处理方式存在计算量大且效率低的缺陷。
技术实现思路
本专利技术实施例提供一种克服上述问题或者至少部分地解决上述问题的利用卷积神经网络进行视频处理的方法及装置。第一个方面,本专利技术实施例提供一种利用卷积神经网络进行视频处理的方法,包括:将视频拆分成按时序排列的多帧图像;将任意一帧图像作为目标图像,选择在所述目标图像时序前的另一帧图像作为参考图像,将所述目标图像和所述参考图像分别经过卷积神经网络中第i层卷积层计算的结果求和,获得所述目标图像相对卷积神经网络中第i+1层卷积层的原始帧;将所述参考图像经过卷积神经网络中第i层卷积层计算的结果和所述原始帧分别输入至卷积神经网络中的激活函数,并计算两个输出结果的差值,获得所述目标图像相对卷积神经网络中第i+1层卷积层的差分帧;将所述目标图像相对卷积神经网络中第i+1层卷积层的差分帧输入至卷积神经网络中第i+1层卷积层,获得所述目标图像经过卷积神经网络中第i+1层卷积层计算的结果;0≤i≤N-1,i和N均为正整数,N表示卷积层的总层数。优选地,所述将所述目标图像相对卷积神经网络中第i+1层卷积层的差分帧输入至卷积神经网络中第i+1层卷积层,之前还包括:根据所述差分帧中各像素点的比特数,将所述差分帧拆分为低比特数据和高比特数据;相应地,所述将所述目标图像相对卷积神经网络中第i+1层卷积层的差分帧输入至卷积神经网络中第i+1层卷积层,具体为:若判断输入至用于计算卷积神经网络的计算单元的数据为低比特数据,则将所述计算单元重构为低比特模式,将所述低比特数据输入至低比特模式的计算单元的卷积神经网络中第i+1层卷积层;若判断输入至用于计算卷积神经网络的计算单元的数据为高比特数据,则将所述计算单元重构为高比特模式,将所述高比特数据输入至高比特模式的计算单元的卷积神经网络中第i+1层卷积层。优选地,获得所述目标图像经过卷积神经网络中第i+1层卷积层计算的结果,具体为:将低比特模式的计算单元和高比特模式的计算单元的卷积神经网络中第i+1层卷积层的输出结果相加,获得所述目标图像经过卷积神经网络中第i+1层卷积层计算的结果优选地,所述将所述差分帧拆分为低比特数据和高比特数据,之后还包括:对低比特数据使用第一编码方法进行编码,获得第一编码结果;对高比特数据使用第二编码方法进行编码,获得第二编码结果;将所述第一编码结果和所述第二编码结果存储至内存中。优选地,所述将所述低比特数据输入至低比特模式的计算单元的卷积神经网络中第i+1层卷积层,具体为:根据第一解码方法将内存中的第一编码结果进行解码,获得低比特数据,将所述低比特数据输入至低比特模式的计算单元的卷积神经网络中第i+1层卷积层;将所述高比特数据输入至高比特模式的计算单元的卷积神经网络中第i+1层卷积层,具体为:根据第二解码方法将内存中的第二编码结果进行解码,获得高比特数据,将所述高比特数据输入至高比特模式的计算单元的卷积神经网络中第i+1层卷积层;其中,所述第一编码方法与所述第一解码方法对应,所述第二编码方法与所述第二解码方法对应。优选地,所述第一编码结果包括若干个数据包,每个数据包与且只与帧图像中的预设个数的像素值对应,每个数据包包括唯一标识以及若干个动态数据,每个所述动态数据对应一个低比特像素点的像素值,且所述动态数据的位宽与所述低比特的像素点中的最大位宽一致;所述第二编码结果包括所述高比特数据中所有非零像素点的像素值和坐标。优选地,所述将所述第一编码结果和所述第二编码结果存储至内存中,具体为:将所述第一编码结果和第二编码结果分别缓存至第一队列和第二队列,根据第一队列和第二队列的预设输出时间和输出速度,将所述第一队列和第二队列输出至所述内存中第二个方面,本专利技术实施例提供一种利用卷积神经网络进行视频处理的装置,包括:帧图像获取模块,用于将视频拆分成按时序排列的多帧图像;原始帧获取模块,用于将任意一帧图像作为目标图像,选择在所述目标图像时序前的另一帧图像作为参考图像,将所述目标图像和所述参考图像分别经过卷积神经网络中第i层卷积层计算的结果求和,获得所述目标图像相对卷积神经网络中第i+1层卷积层的原始帧;差分帧获取模块,用于将所述参考图像经过卷积神经网络中第i层卷积层计算的结果和所述原始帧分别输入至卷积神经网络中的激活函数,并计算两个输出结果的差值,获得所述目标图像相对卷积神经网络中第i+1层卷积层的差分帧;卷积计算模块,用于将所述目标图像相对卷积神经网络中第i+1层卷积层的差分帧输入至卷积神经网络中第i+1层卷积层,获得所述目标图像经过卷积神经网络中第i+1层卷积层计算的结果;其中,0≤i≤N-1,i和N均为正整数,N表示卷积层的总层数。第三方面,本专利技术实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。第四方面,本专利技术实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。本专利技术实施例提供的利用卷积神经网络进行视频处理的方法及装置,利用帧间数据的相似性,结合逐层进行卷积操作的方法,相比现有逐帧处理的技术,能够提高神经网络的运算效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例的利用卷积神经网络进行视频处理的方法的流程示意图;图2为本专利技术另一本文档来自技高网...

【技术保护点】
1.一种利用卷积神经网络进行视频处理的方法,其特征在于,包括:/n将视频拆分成按时序排列的多帧图像;/n将任意一帧图像作为目标图像,选择在所述目标图像时序前的另一帧图像作为参考图像,将所述目标图像和所述参考图像分别经过卷积神经网络中第i层卷积层计算的结果求和,获得所述目标图像相对卷积神经网络中第i+1层卷积层的原始帧;/n将所述参考图像经过卷积神经网络中第i层卷积层计算的结果和所述原始帧分别输入至卷积神经网络中的激活函数,并计算两个输出结果的差值,获得所述目标图像相对卷积神经网络中第i+1层卷积层的差分帧;/n将所述目标图像相对卷积神经网络中第i+1层卷积层的差分帧输入至卷积神经网络中第i+1层卷积层,获得所述目标图像经过卷积神经网络中第i+1层卷积层计算的结果;0≤i≤N-1,i和N均为正整数,N表示卷积层的总层数。/n

【技术特征摘要】
1.一种利用卷积神经网络进行视频处理的方法,其特征在于,包括:
将视频拆分成按时序排列的多帧图像;
将任意一帧图像作为目标图像,选择在所述目标图像时序前的另一帧图像作为参考图像,将所述目标图像和所述参考图像分别经过卷积神经网络中第i层卷积层计算的结果求和,获得所述目标图像相对卷积神经网络中第i+1层卷积层的原始帧;
将所述参考图像经过卷积神经网络中第i层卷积层计算的结果和所述原始帧分别输入至卷积神经网络中的激活函数,并计算两个输出结果的差值,获得所述目标图像相对卷积神经网络中第i+1层卷积层的差分帧;
将所述目标图像相对卷积神经网络中第i+1层卷积层的差分帧输入至卷积神经网络中第i+1层卷积层,获得所述目标图像经过卷积神经网络中第i+1层卷积层计算的结果;0≤i≤N-1,i和N均为正整数,N表示卷积层的总层数。


2.根据权利要求1所述的利用卷积神经网络进行视频处理的方法,其特征在于,所述将所述目标图像相对卷积神经网络中第i+1层卷积层的差分帧输入至卷积神经网络中第i+1层卷积层,之前还包括:
根据所述差分帧中各像素点的比特数,将所述差分帧拆分为低比特数据和高比特数据;
相应地,所述将所述目标图像相对卷积神经网络中第i+1层卷积层的差分帧输入至卷积神经网络中第i+1层卷积层,具体为:
若判断输入至用于计算卷积神经网络的计算单元的数据为低比特数据,则将所述计算单元重构为低比特模式,将所述低比特数据输入至低比特模式的计算单元的卷积神经网络中第i+1层卷积层;
若判断输入至用于计算卷积神经网络的计算单元的数据为高比特数据,则将所述计算单元重构为高比特模式,将所述高比特数据输入至高比特模式的计算单元的卷积神经网络中第i+1层卷积层。


3.根据权利要求2所述的利用卷积神经网络进行视频处理的方法,其特征在于,获得所述目标图像经过卷积神经网络中第i+1层卷积层计算的结果,具体为:
将低比特模式的计算单元和高比特模式的计算单元的卷积神经网络中第i+1层卷积层的输出结果相加,获得所述目标图像经过卷积神经网络中第i+1层卷积层计算的结果。


4.根据权利要求2或3所述的利用卷积神经网络进行视频处理的方法,其特征在于,所述将所述差分帧拆分为低比特数据和高比特数据,之后还包括:
对低比特数据使用第一编码方法进行编码,获得第一编码结果;
对高比特数据使用第二编码方法进行编码,获得第二编码结果;
将所述第一编码结果和所述第二编码结果存储至内存中。


5.根据权利要求4所述的利用卷积神经网络进行视频处理的方法,其特征在于,所述将所述低比特数据输入至低比特模式的计算单元的卷积神经网络中第i+1层卷积层,具体为:
根据第一解码方法将内存中的第一编码结果进行解码,获...

【专利技术属性】
技术研发人员:刘勇攀袁哲杨一雄岳金山刘若洋李学清杨华中
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1