The invention discloses a new video semantics extraction method based on deep learning model, which includes the following steps: based on the physical structure of video, the semantically structured video data can be obtained by combining and segmenting the video frame sequence; and the semantically structured video data can be processed into three-dimensional convolution nerve by using sliding windows. The input data of the network; the three-dimensional convolution neural network model is created, and the output data of sliding window is used as training data; the output results of the three-dimensional convolution neural network are used as input of the continuous time series classification algorithm, and the parameters of the three-dimensional convolution neural network are trained by back propagation algorithm; and the trained three-dimensional convolution neural network is trained by back propagation algorithm. Convolutional Neural Network Continuous Time Sequence Classification algorithm is used to extract video semantics as a semantics extraction model of sports video. By combining the proposed video semantic structuring method with the three-dimensional convolution neural network and the continuous time series classification algorithm, the method can better capture the relationship between actions and improve the accuracy of sports video semantic extraction.
【技术实现步骤摘要】
一种新的基于深度学习模型的视频语义提取方法
本专利技术涉及人工智能和模式识别
,特别是涉及一种新的基于深度学习模型的视频语义提取方法。
技术介绍
“语义”这一概念起源于19世纪末,是虚拟数据所对应的现实世界中的事物所代表的含义的表现,以及这些含义之间的关系,是虚拟数据在某个领域上的解释和逻辑表示。而且“视频语义”是针对人类思维而言的,当我们想用计算机来理解视频之中的“语义”时,计算机只能够识别诸如颜色、形状等底层特征。因此,我们需要采用一些方法将这些底层的特征联系起来,形成一些更高层的含义,从而将视频中所要展示的信息更好的表达出来。视频数据通常是非结构化的,因此对视频的语义提取,需要从多方面进行考虑。从内容上,需要考虑视频含有的空间和时间属性。从语义上,需要考虑视频信息包括的图像特征、字幕文本特征、语音特征和视频描述信息文本特征等。视频在物理结构上分成了四个结构层次:帧、镜头、场景和视频。视频帧的内容记录了视频中对象的特征,如色彩、纹路和形态等;镜头是由若干连续帧组成的,其内容记录了连续帧中对象的运动特征,表现了对象的时间特性。在现实中,镜头是生成视频的基本单位,即是摄像机一次拍摄所得到的最小单位;场景由一系列语义内容相关并且时间上连续的镜头组成,其内容记录了较为复杂的语义信息。若干个场景组成一个视频文件,其内容记录了整个视频的语义信息。(1)基于关键帧的视频语义提取,通常的关键帧语义提取技术流程为:对视频的帧截图;对帧截图进行关键帧识别,对取得的关键帧进行语义分析;将视频中包含的语音数据通过语音识别转换成文本;对语音文本进行语义识别;将上述关键帧语 ...
【技术保护点】
1.一种新的基于深度学习模型的视频语义提取方法,其特征在于:包括以下步骤:S1.基于视频物理结构,通过对视频帧序列组合与分割,得到语义结构化的视频数据:视频数据的物理结构从上自下分别为:视频、场景、镜头、帧;参考视频数据的物理结构而定义视频的语义结构从上至下为:视频、行为、子动作、帧;S2.通过使用滑动窗口将语义结构化的视频数据处理成三维卷积神经网络的输入数据;S3.创建三维卷积神经网络模型,使用滑动窗口的输出数据作为训练数据;S4.基于三维卷积神经网络的输出结果作为连续时序分类算法的输入,通过反向传播算法完成三维卷积神经网络参数的训练;S5.将训练好的三维卷积神经网络‑连续时序分类算法作为体育视频语义提取模型提取视频语义。
【技术特征摘要】
1.一种新的基于深度学习模型的视频语义提取方法,其特征在于:包括以下步骤:S1.基于视频物理结构,通过对视频帧序列组合与分割,得到语义结构化的视频数据:视频数据的物理结构从上自下分别为:视频、场景、镜头、帧;参考视频数据的物理结构而定义视频的语义结构从上至下为:视频、行为、子动作、帧;S2.通过使用滑动窗口将语义结构化的视频数据处理成三维卷积神经网络的输入数据;S3.创建三维卷积神经网络模型,使用滑动窗口的输出数据作为训练数据;S4.基于三维卷积神经网络的输出结果作为连续时序分类算法的输入,通过反向传播算法完成三维卷积神经网络参数的训练;S5.将训练好的三维卷积神经网络-连续时序分类算法作为体育视频语义提取模型提取视频语义。2.根据权利要求1所述的一种视频语义提取方法,其特征在于:步骤S1包括下列子步骤:S11.对视频数据集视频预处理:视频数据库中的原始视频需要将视频按照一定的FPS转化为视频帧图片集,并对转化的图片进行图像预处理,所述图像预处理包括大小调整和噪声过滤;S12.创建训练数据集:每一个训练视频对应数据形式s表示训练集数据;n为训练视频个数;是视频经过预处理后的视频图片集合,其中,m为视频转化为图片帧的个数,使用ffmpeg将视频按照每秒20帧转化为图片序列;是视频对应的语义标签,其中,根据体育视频的种类有h种选取方式,q为视频的语义标签数量,对于不同的视频其语义标签的取值不同,语义标签数量的取值也不同;S13.创建测试数据集:每一个测试视频对应数据形式t表示测试集数据,n为测试视频个数,是视频经过预处理后的视频图片集合;是视频对应的语义标签,其中,根据体育视频的种类有h种选取方式,q为视频的语义标签数量,对于不同的视频其语义标签的取值不同,语义标签数量的取值也不同。3.根据权利要求2所述的一种视频语义提取方法,其特征在于:步骤S2包...
【专利技术属性】
技术研发人员:姚易佳,
申请(专利权)人:四川创意信息技术股份有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。