本发明专利技术公开了一种基于深度神经网络的数字视频特征提取方法,所述方法包括以下步骤:训练一个去噪编码网络实现对视频的初始描述符的维数约简,将条件生成模型和编码器级联构成一组基本的特征提取模块;连续训练多组特征提取模块,按训练先后顺序对所得模块做自底向上的堆叠构成深度神经网络;训练后处理网络,将其置于深度神经网络的顶部,用以优化视频描述符的鲁棒性和区分性。本方法通过深度神经网将视频特征提取为简短的视频描述符,该视频描述符能够实现对视频感知内容的摘要化描述,同时具有良好的鲁棒性和区分性,可实现高效、准确的视频内容识别。
A method of digital video feature extraction based on depth neural network
The invention discloses a method for extracting digital video feature depth based on neural network, the method comprises the following steps: training a descriptor for video denoising initial encoding network dimensionality reduction, conditional generation model and cascade encoder constitute a group of basic feature extraction module; continuous training group feature extraction module in order to do the training, from the bottom up a stack depth of neural network for the postprocessing module; training network, will be at the top of the depth of the neural network to optimize video descriptors robustness and discrimination. By this method the depth of the neural network will be video feature extraction for short video descriptors, the video descriptors can be achieved on the video perceptual content abstract description, and has good robustness and discriminability, can achieve efficient and accurate video content recognition.
【技术实现步骤摘要】
一种基于深度神经网络的数字视频特征提取方法
本专利技术涉及信号与信息处理
,尤其涉及一种基于深度神经网络的数字视频特征提取方法。
技术介绍
视频数据相对于图片数据具有数据量大、数据具有时序联系特性以及数据冗余较大的特点。视频版权保护、视频检索以及视频数据化管理常常需要一种唯一且极其紧凑的描述符作为视频的内容标签。生成视频描述符的最简单方法是独立从各代表帧中提取描述符,将其级联构成整段视频的描述符。常见方法有统计学法[1],亮度梯度法[2]和彩色相关性法[3]。但是这类方法无法刻画视觉信息的时序特性。为了实现对视频时空特征的提取,文献[4]相邻块沿时间和空间方向上的亮度差值作为视频描述符,文献[5]以特征点的轨迹作为视频描述符。此外,三维信号变换[6]、张量分解[7]和光流法[8]也都被用于构造能够反映视频时空属性的描述符。专利技术人在实现本专利技术的过程中,发现现有技术中至少存在以下缺点和不足:现有的特征提取方法具有冗余偏大和时序失真敏感的缺点。而且大部分依赖于人工设计,但人工设计的特征提取方法难以捕捉视频信息在时空方向上的本质属性。
技术实现思路
本专利技术提供了一种基于深度神经网络的数字视频特征提取方法,本方法通过深度神经网将视频特征提取为简短的视频描述符,该视频描述符能够实现对视频感知内容的摘要化描述,同时具有良好的鲁棒性和区分性,可实现高效、准确的视频内容识别,详见下文描述:一种基于深度神经网络的数字视频特征提取方法,所述方法包括以下步骤:训练一个去噪编码网络实现对视频的初始描述符的维数约简,将条件生成模型和编码器级联构成一组基本的特征提取模块;连续训练多组特征提取模块,按训练先后顺序对所得模块做自底向上的堆叠构成深度神经网络;训练后处理网络,将其置于深度神经网络的顶部,用以优化视频描述符的鲁棒性和区分性。其中,所述方法还包括:对输入视频做预处理,通过条件生成模型来表达视频内容的时空联系。其中,所述对输入视频做预处理,通过条件生成模型来表达视频内容的时空联系的步骤具体为:对视频做低通滤波平滑及降采样,将每一帧图片大小压缩到满足神经网络输入层尺寸需要,对降采样后的视频做正则化,使每一帧的像素平均值为零,方差为1;将视频数据输入条件玻尔兹曼机(ConditionalRestrictedBoltzmannMachine,CRBM),将预处理视频的每一帧像素置为可见层的神经元,对CRBM网络进行训练。其中,所述训练一个去噪编码网络实现对视频的初始描述符的维数约简,将条件生成模型和编码器级联构成一组基本的特征提取模块的步骤具体为:对每个训练视频施加失真并做预处理操作,将失真视频作为CRBM的输入,生成初始描述符,选取多组原始视频和失真视频的初始描述符作为训练数据,训练一个去噪自编码网络;将训练所得的编码器E(·)堆叠在CRBM之上,得到第一组特征提取模块。其中,所述连续训练多组特征提取模块,按训练先后顺序对所得模块做自底向上的堆叠构成深度神经网络的步骤具体为:利用上述特征提取模块的输出作为训练数据,继续训练一对CRBM和编码器,用所得CRBM和编码器重新建立第二组特征提取模块;依次训练多个CRBM和编码器模块,每个模块的训练数据由前一个模块的输出组成;按照训练的先后顺序将各个模块进行自底向上的堆叠,形成深度神经网络。其中,所述训练后处理网络,将其置于深度神经网络的顶部,用以优化视频描述符的鲁棒性和区分性的步骤具体为:利用由K个CRBM-E(·)模块所构成的深度神经网络为训练视频生成描述符,通过训练后置处理网络的代价函数进行训练;完成训练后将该后处理网络置于由CRBM和编码器构成的深度神经网络顶层。本专利技术提供的技术方案的有益效果是:1、本专利技术通过深度神经网络提取视频特征从而生成视频描述符,CRBM(ConditionalRestrictedBoltzmannMachine)网络能够刻画视频信息的时空本质属性;2、自编码网络能够实现对描述符的数据约简及鲁棒性提升,后处理网络能够整体优化描述符的鲁棒性和区分性;3、本专利技术无须人工设计特征提取方法,通过训练模型学习得到最优的特征提取方案;4、本专利技术程序简单,易于实现,计算复杂度低。在CPU主频为3.2GHz,内存为32GB的计算机上的测试结果表明,本专利技术所述方法计算500帧视频序列所需的时间平均仅为1.52秒。附图说明图1为一种基于深度神经网络的数字视频特征提取方法的流程图;图2为条件受限玻尔兹曼机结构的示意图;图3为用于视频特征提取的深度神经网络结构的示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面对本专利技术实施方式作进一步地详细描述。实施例1为了实现对视频内容的简要且鲁棒的描述,本专利技术实施例提出了一种基于深度神经网络的数字视频特征提取方法,参见图1,该方法包括以下步骤:101:训练一个去噪编码网络实现对视频的初始描述符的维数约简,将条件生成模型和编码器级联构成一组基本的特征提取模块;102:连续训练多组特征提取模块,按训练先后顺序对所得模块做自底向上的堆叠构成深度神经网络;103:训练后处理网络,将其置于深度神经网络的顶部,用以优化视频描述符的鲁棒性和区分性。其中,在步骤101之前,该方法还包括:对输入视频做预处理,通过条件生成模型来表达视频内容的时空联系。其中,上述对对输入视频做预处理,通过条件生成模型来表达视频内容的时空联系的步骤具体为:对视频做低通滤波平滑及降采样,将每一帧图片大小压缩到满足神经网络输入层尺寸需要,对降采样后的视频做正则化,使每一帧的像素平均值为零,方差为1;将视频数据输入CRBM,将预处理视频的每一帧像素置为可见层的神经元,对CRBM网络进行训练。其中,步骤101中的训练一个去噪编码网络实现对视频的初始描述符的维数约简,将条件生成模型和编码器级联构成一组基本的特征提取模块具体为:对每个训练视频施加失真并做预处理操作,将失真视频作为CRBM的输入,生成初始描述符,选取多组原始视频和失真视频的初始描述符作为训练数据,训练一个去噪自编码网络;将训练所得的编码器E(·)堆叠在CRBM之上,得到第一组特征提取模块。其中,步骤102中的连续训练多组特征提取模块,按训练先后顺序对所得模块做自底向上的堆叠构成深度神经网络具体为:利用上述特征提取模块的输出作为训练数据,继续训练一对CRBM和编码器,用所得CRBM和编码器重新建立第二组特征提取模块;依次训练多个CRBM和编码器模块,每个模块的训练数据由前一个模块的输出组成;按照训练的先后顺序将各个模块进行自底向上的堆叠,形成深度神经网络。其中,步骤103中的训练后处理网络,将其置于深度神经网络的顶部,用以优化视频描述符的鲁棒性和区分性具体为:利用由K个CRBM-E(·)模块所构成的深度神经网络为训练视频生成描述符,通过训练后置处理网络的代价函数进行训练;完成训练后将该后处理网络置于由CRBM和编码器构成的深度神经网络顶层。综上所述,通过深度神经网将视频特征提取为简短的视频描述符,该视频描述符能够实现对视频感知内容的摘要化描述,同时具有良好的鲁棒性和区分性,可实现高效、准确的视频内容识别。实施例2下面结合具体的附图2和3、以及计算公式对实施例1中的方案进行详细介绍,详见下文描述:201:将本文档来自技高网...
【技术保护点】
一种基于深度神经网络的数字视频特征提取方法,其特征在于,所述方法包括以下步骤:训练一个去噪编码网络实现对视频的初始描述符的维数约简,将条件生成模型和编码器级联构成一组基本的特征提取模块;连续训练多组特征提取模块,按训练先后顺序对所得模块做自底向上的堆叠构成深度神经网络;训练后处理网络,将其置于深度神经网络的顶部,用以优化视频描述符的鲁棒性和区分性。
【技术特征摘要】
1.一种基于深度神经网络的数字视频特征提取方法,其特征在于,所述方法包括以下步骤:训练一个去噪编码网络实现对视频的初始描述符的维数约简,将条件生成模型和编码器级联构成一组基本的特征提取模块;连续训练多组特征提取模块,按训练先后顺序对所得模块做自底向上的堆叠构成深度神经网络;训练后处理网络,将其置于深度神经网络的顶部,用以优化视频描述符的鲁棒性和区分性。2.根据权利要求1所述的一种基于深度神经网络的数字视频特征提取方法,其特征在于,所述方法还包括:对输入视频做预处理,通过条件生成模型来表达视频内容的时空联系。3.根据权利要求2所述的一种基于深度神经网络的数字视频特征提取方法,其特征在于,所述对输入视频做预处理,通过条件生成模型来表达视频内容的时空联系的步骤具体为:对视频做低通滤波平滑及降采样,将每一帧图片大小压缩到满足神经网络输入层尺寸需要,对降采样后的视频做正则化,使每一帧的像素平均值为零,方差为1;将视频数据输入条件玻尔兹曼机,将预处理视频的每一帧像素置为可见层的神经元,对CRBM网络进行训练。4.根据权利要求1所述的一种基于深度神经网络的数字视频特征提取方法,其特征在于,所述训练一个去噪编码网络实现对视频的初始描述符的维数约简,将条件生成模型和编码器级联...
【专利技术属性】
技术研发人员:李岳楠,陈学票,
申请(专利权)人:天津大学,
类型:发明
国别省市:天津,12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。