一种新的基于深度学习模型的视频语义提取方法技术

技术编号:19635510 阅读:52 留言:0更新日期:2018-12-01 16:10
本发明专利技术公开了一种新的基于深度学习模型的视频语义提取方法,包括步骤如下:基于视频物理结构,通过对视频帧序列组合与分割,得到语义结构化的视频数据;通过使用滑动窗口将语义结构化的视频数据处理成三维卷积神经网络的输入数据;创建三维卷积神经网络模型,使用滑动窗口的输出数据作为训练数据;基于三维卷积神经网络的输出结果作为连续时序分类算法的输入,通过反向传播算法完成三维卷积神经网络参数的训练;将训练好的三维卷积神经网络‑连续时序分类算法作为体育视频语义提取模型提取视频语义。本发明专利技术通过提出的视频语义结构化方法结合三维卷积神经网络和连续时序分类算法能较好地捕捉动作之间的联系,提高体育视频语义提取准确度。

A New Video Semantic Extraction Method Based on Deep Learning Model

The invention discloses a new video semantics extraction method based on deep learning model, which includes the following steps: based on the physical structure of video, the semantically structured video data can be obtained by combining and segmenting the video frame sequence; and the semantically structured video data can be processed into three-dimensional convolution nerve by using sliding windows. The input data of the network; the three-dimensional convolution neural network model is created, and the output data of sliding window is used as training data; the output results of the three-dimensional convolution neural network are used as input of the continuous time series classification algorithm, and the parameters of the three-dimensional convolution neural network are trained by back propagation algorithm; and the trained three-dimensional convolution neural network is trained by back propagation algorithm. Convolutional Neural Network Continuous Time Sequence Classification algorithm is used to extract video semantics as a semantics extraction model of sports video. By combining the proposed video semantic structuring method with the three-dimensional convolution neural network and the continuous time series classification algorithm, the method can better capture the relationship between actions and improve the accuracy of sports video semantic extraction.

【技术实现步骤摘要】
一种新的基于深度学习模型的视频语义提取方法
本专利技术涉及人工智能和模式识别
,特别是涉及一种新的基于深度学习模型的视频语义提取方法。
技术介绍
“语义”这一概念起源于19世纪末,是虚拟数据所对应的现实世界中的事物所代表的含义的表现,以及这些含义之间的关系,是虚拟数据在某个领域上的解释和逻辑表示。而且“视频语义”是针对人类思维而言的,当我们想用计算机来理解视频之中的“语义”时,计算机只能够识别诸如颜色、形状等底层特征。因此,我们需要采用一些方法将这些底层的特征联系起来,形成一些更高层的含义,从而将视频中所要展示的信息更好的表达出来。视频数据通常是非结构化的,因此对视频的语义提取,需要从多方面进行考虑。从内容上,需要考虑视频含有的空间和时间属性。从语义上,需要考虑视频信息包括的图像特征、字幕文本特征、语音特征和视频描述信息文本特征等。视频在物理结构上分成了四个结构层次:帧、镜头、场景和视频。视频帧的内容记录了视频中对象的特征,如色彩、纹路和形态等;镜头是由若干连续帧组成的,其内容记录了连续帧中对象的运动特征,表现了对象的时间特性。在现实中,镜头是生成视频的基本单位,即是摄像机一次拍摄所得到的最小单位;场景由一系列语义内容相关并且时间上连续的镜头组成,其内容记录了较为复杂的语义信息。若干个场景组成一个视频文件,其内容记录了整个视频的语义信息。(1)基于关键帧的视频语义提取,通常的关键帧语义提取技术流程为:对视频的帧截图;对帧截图进行关键帧识别,对取得的关键帧进行语义分析;将视频中包含的语音数据通过语音识别转换成文本;对语音文本进行语义识别;将上述关键帧语义和语音语义结合在一起,就得到了这个视频的语义;也就是将视频的图像特征和声音mfcc特征转换为语义特征,然后结合字幕的识别,通过Neuro-LinguisticProgramming处理字幕得到词向量和文档相似度。这个方法的优势在于对视频上的文字内容较多的视频有较好的提取效果,比如一些教育类的视频。这种方法的劣势在于:对其他类型的文字较少的视频,因为其关键帧中的字幕信息较少,很难从中获得有用的文本信息。(2)基于视频文本信息关键词提取,这种方法是对纯文本的提取,且此方法对词本身的重要程度、词所在的位置要求比较高,前面的词比后面的词重要,词频,词的整体出现顺序,也需要综合起来。也就是说标题的内容需要非常切合视频语义,否则这种方法的准确率会非常低。这种方法的优势是计算复杂度较低,业内有成熟的文本处理算法,并且各种算法开源包都很方便。这种方法的劣势在于:有一些网络用语其表达的意思与字面意思相差很大,对视频语义的提取会产生极大的干扰。对于体育视频的语义分析,目前的方法很少从体育运动的语义结构化进行考虑,因此不能很好的捕捉动作之间的联系,体育视频语义提取准确度还较低。
技术实现思路
本专利技术的目的在于克服现有的技术不足,提供一种新的基于深度学习模型的视频语义提取方法,该方法使用三维卷积神经网络模型和连续时序分类算法对语义结构化的视频数据进行语义提取,能够解决体育类视频进行语义分析的问题。具体的,一种新的基于深度学习模型的视频语义提取方法,其特征在于:包括以下步骤:S1.基于视频物理结构,通过对视频帧序列组合与分割,得到语义结构化的视频数据:视频数据的物理结构从上自下分别为:视频、场景、镜头、帧;参考视频数据的物理结构而定义视频的语义结构从上至下为:视频、行为、子动作、帧;S2.通过使用滑动窗口将语义结构化的视频数据处理成三维卷积神经网络的输入数据;S3.创建三维卷积神经网络模型,使用滑动窗口的输出数据作为训练数据;S4.基于三维卷积神经网络的输出结果作为连续时序分类算法的输入,通过反向传播算法完成三维卷积神经网络参数的训练;S5.将训练好的三维卷积神经网络-连续时序分类算法作为体育视频语义提取模型提取视频语义。优选地,步骤S1包括下列子步骤:S11.对视频数据集视频预处理:视频数据库中的原始视频需要将视频按照一定的FPS转化为视频帧图片集,并对转化的图片进行图像预处理,所述图像预处理包括大小调整和噪声过滤;S12.创建训练数据集:每一个训练视频对应数据形式s表示训练集数据;n为训练视频个数;是视频经过预处理后的视频图片集合,其中,m为视频转化为图片帧的个数,使用ffmpeg将视频按照每秒20帧转化为图片序列;是视频对应的语义标签,其中,根据体育视频的种类有h种选取方式,q为视频的语义标签数量,对于不同的视频其语义标签的取值不同,语义标签数量的取值也不同;S13.创建测试数据集:每一个测试视频对应数据形式t表示测试集数据,n为测试视频个数,是视频经过预处理后的视频图片集合。是视频对应的语义标签,其中,根据体育视频的种类有h种选取方式,q为视频的语义标签数量,对于不同的视频其语义标签的取值不同,语义标签数量的取值也不同。优选地,步骤S2包括下列子步骤:S21.将训练数据中视频帧图片数量m不满足m=kw(k为任意整数,w为滑动窗口的大小)的视频帧图片集进行补充处理,将视频最后一帧的图片进行复制操作直到满足m为w的倍数;S22.使用滑动窗口对视频帧序列进行滑动读取帧图片,滑动步长为滑动窗口的一半,每滑动一次,获取的帧图片为三维卷积神经网络的一次输入,本方法取滑动窗口大小w=16,因此测试数据形式经过处理变为w代表一次滑动窗口取得的图片集合,其中代表窗口滑动第k次滑动获得视频图片集。优选地,步骤S3包括下列子步骤:S31.创建一个有五层卷积层、池化层,两层全连接层的三维卷积神经网络做为视频子动作语义的提取模型;S32.将三维卷积神经网络的第二层全连接层的输出固定为子动作种类个数h;S33.三维卷积神经网络输入为步骤S22中定义的输出为S32中三维卷积神经网络第二层全连接层的输出,其格式为子动作概率序列Y'k=[y'1,y'2,....,y'h]。优选地,步骤S4包括下列子步骤:S41.通过滑动窗口对视频帧图片集的图片采集和三维卷积神经网络对滑动窗口采集的图片集进行子动作语义提取,得到了视频的子动作语义序列[Y'1,Y'2,...,Y'k],使用连续时序分类算法CTC完成子动作语义序列的去重和整合,该算法使用前向后向推导从而对重复的概率标签进行整合,最终得到可能性最大的标签序列,S42.使用连续时序分类算法CTC算法将去重的子动作语义序列与视频语义标签构建损失函数,将损失反向传播,完成对三维神经网络的训练。优选地,步骤S5包括下列子步骤:S51.视频采集与预处理;S52.将经过处理的视频图片集合输入模型得到语义序列从而得到视频的高层语义特征。本专利技术的有益效果在于:本专利技术通过提出的视频语义结构化方法结合三维卷积神经网络和连续时序分类算法能较好地捕捉动作之间的联系,提高体育视频语义提取准确度。附图说明图1是本专利技术提出的一种新的基于深度学习模型的视频语义提取方法流程示意图。图2是本专利技术提出的视频数据的物理结构示意图。图3是本专利技术提出的视频的语义结构示意图。图4是本专利技术提出的三维卷积神经网络模型架构图。图5是本专利技术提出的基于三维卷积神经网络与连续时序分类算法的模型架构图。图6是本专利技术提出的模型训练与测试流程示意图。具体实施方式为了对本专利技术的技术特征、目的和效果有更加清楚的理解本文档来自技高网
...

【技术保护点】
1.一种新的基于深度学习模型的视频语义提取方法,其特征在于:包括以下步骤:S1.基于视频物理结构,通过对视频帧序列组合与分割,得到语义结构化的视频数据:视频数据的物理结构从上自下分别为:视频、场景、镜头、帧;参考视频数据的物理结构而定义视频的语义结构从上至下为:视频、行为、子动作、帧;S2.通过使用滑动窗口将语义结构化的视频数据处理成三维卷积神经网络的输入数据;S3.创建三维卷积神经网络模型,使用滑动窗口的输出数据作为训练数据;S4.基于三维卷积神经网络的输出结果作为连续时序分类算法的输入,通过反向传播算法完成三维卷积神经网络参数的训练;S5.将训练好的三维卷积神经网络‑连续时序分类算法作为体育视频语义提取模型提取视频语义。

【技术特征摘要】
1.一种新的基于深度学习模型的视频语义提取方法,其特征在于:包括以下步骤:S1.基于视频物理结构,通过对视频帧序列组合与分割,得到语义结构化的视频数据:视频数据的物理结构从上自下分别为:视频、场景、镜头、帧;参考视频数据的物理结构而定义视频的语义结构从上至下为:视频、行为、子动作、帧;S2.通过使用滑动窗口将语义结构化的视频数据处理成三维卷积神经网络的输入数据;S3.创建三维卷积神经网络模型,使用滑动窗口的输出数据作为训练数据;S4.基于三维卷积神经网络的输出结果作为连续时序分类算法的输入,通过反向传播算法完成三维卷积神经网络参数的训练;S5.将训练好的三维卷积神经网络-连续时序分类算法作为体育视频语义提取模型提取视频语义。2.根据权利要求1所述的一种视频语义提取方法,其特征在于:步骤S1包括下列子步骤:S11.对视频数据集视频预处理:视频数据库中的原始视频需要将视频按照一定的FPS转化为视频帧图片集,并对转化的图片进行图像预处理,所述图像预处理包括大小调整和噪声过滤;S12.创建训练数据集:每一个训练视频对应数据形式s表示训练集数据;n为训练视频个数;是视频经过预处理后的视频图片集合,其中,m为视频转化为图片帧的个数,使用ffmpeg将视频按照每秒20帧转化为图片序列;是视频对应的语义标签,其中,根据体育视频的种类有h种选取方式,q为视频的语义标签数量,对于不同的视频其语义标签的取值不同,语义标签数量的取值也不同;S13.创建测试数据集:每一个测试视频对应数据形式t表示测试集数据,n为测试视频个数,是视频经过预处理后的视频图片集合;是视频对应的语义标签,其中,根据体育视频的种类有h种选取方式,q为视频的语义标签数量,对于不同的视频其语义标签的取值不同,语义标签数量的取值也不同。3.根据权利要求2所述的一种视频语义提取方法,其特征在于:步骤S2包...

【专利技术属性】
技术研发人员:姚易佳
申请(专利权)人:四川创意信息技术股份有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1