当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于图卷积神经网络的视频智能拆条方法技术

技术编号:24093095 阅读:70 留言:0更新日期:2020-05-09 08:58
本发明专利技术公开了一种基于图卷积神经网络的视频智能拆条方法,包括关键帧提取、帧间相似度计算和帧聚类三个步骤。首先,基于帧间差分实现关键帧提取,将差距较大的相邻帧作为关键帧;然后,通过Siamase孪生网络得到相似度矩阵,矩阵中的元素即为关键帧之间的欧氏距离;最后,利用相似度矩阵和关键帧之间的时序关系构建拓扑图,通过卷积神经网络对关键帧进行聚类,实现故事分类,从而达到视频智能拆条目的。本发明专利技术可以准确地将视频划分为具有特定语义的视频片段,具有显著的应用价值。

An intelligent video striping method based on graph convolution neural network

【技术实现步骤摘要】
一种基于图卷积神经网络的视频智能拆条方法
本专利技术属于人工智能
,涉及一种视频智能拆条方法,具体涉及一种基于图卷积神经网络的视频智能拆条方法。技术背景随着移动互联网的深入发展、用户使用习惯的转变,用户对短视频的需求日益增多。目前大部分视频拆分都是由人工逐帧预览的手动拆条,不仅耗时费力也不满足新媒体视听节目快速发布的时效性要求。因此视频智能拆条技术的应用可以大大提高工作效率,有效提高新媒体的传播速度。它通过对非结构化的视频数据进行特征或结构分析,采用视频分割技术快速地把一个长视频,按照内容情节拆分成多个独立的具有特定语义的短视频片段。现有的对新闻视频进行拆分的方法大致分为两类。第一类利用视频中主题单元变换时的镜头时空特征对新闻视频进行划分,比如语音停顿、说话者的改变、主播的出现等。但是这种传统的方法普适性不强,只能用于某些特定的视频。第二类利用文本识别和拼接或音频处理等对同一个故事中的连续镜头进行合并来检测故事边界。判断两个镜头是否属于同一个故事的准则为两个镜头对应的语义是否具有关联性。基于语义相似性评估的故事分割方法,其依据为多个镜头之间的视觉相似性与时域距离长短。现有研究利用镜头中提取的多种音频-视频特征来评估语义相似性。但是在新闻视频中,一个故事的镜头之间并非严格遵循语义相似度的原则。因此,对于镜头之间缺乏语义相关的故事片段,这种方法就无法准确地分割。综上,现有故事分割方法均局限于某一种特定的视频场景与内容,不能适用于一般性的视频场景。
技术实现思路
为了解决上述技术问题,本专利技术提出了一种基于图卷积的方法来对视频进行智能拆分,通过Siamase网络和图卷积网络来提取特征和拆分视频,将视频划分为具有特定语义的视频片段。本专利技术所采用的技术方案是:一种基于图卷积神经网络的视频智能拆条方法,其特征在于,包括以下步骤:步骤1:针对原始输入视频,使用帧间差分法提取关键帧;步骤2:构建Siamase深度学习网络,提取关键帧的特征向量,通过计算帧间欧式距离建立相似度矩阵;步骤3:利用图卷积网络对关键帧进行聚类,实现视频智能拆条。与现有的视频智能拆条方案相比,本专利技术具有以下的优点与积极效果:1)本专利技术中涉及的方法不依赖于新闻视频特定的场景切换标志(如主持人)和镜头间语义上的关联,可处理任意场景的新闻视频,具有普适性强的优点。2)本专利技术通过计算帧间相似度、分析关键帧之间的时序关系,利用图卷积网络对关键帧进行聚类,能够快速、准确地实现视频智能拆分。附图说明图1:本专利技术实施例的流程图。具体实施方式为了便于本领域普通技术人员理解和实施本专利技术,下面结合附图及实施案例对本专利技术做进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本专利技术,并不用于限定本专利技术。请见图1,本专利技术提供的一种基于图卷积神经网络的视频智能拆条方法,包括以下步骤:步骤1:使用帧间差分的方法实现关键帧提取;其原理在于将两帧图像进行差分,用得到的图像的平均像素强度来衡量两帧图像的变化大小。每当视频中的某一帧与前一帧画面内容产生了大的变化,便认为是关键帧,并将其提取出来。算法流程简述如下:步骤1.1:读取视频并依次计算每两帧之间的帧间差分,进而得到平均帧间差分强度。计算公式为:其中,fk(x,y)和fk+1(x,y)分别为第k帧和k+1帧图像,w和h为图像的长和宽。步骤1.2:基于步骤1.1得到的平均帧间差分强度,选择具有平均帧间差分强度局部最大值的帧作为视频的关键帧。步骤1.3:利用OpenCV库保存关键帧,并用关键帧在视频中的帧号命名。步骤2:构建Siamase深度学习网络,提取关键帧的特征向量,通过计算帧间欧式距离建立相似度矩阵;Siamase网络可以用来较好地衡量两个输入的相似程度,它有两个输入,分别将两个输入送入两个相同的神经网络(CNN1和CNN2),这两个神经网络共享参数,分别将输入映射到新的空间,形成输入在新的空间中的表示。通过损失函数的计算,评价两个输入的相似度。步骤如下:步骤2.1:构建Siamase深度学习网络模型,在所述网络模型内部搭建两个相同、权重共享的CNN网络。步骤2.2:输入成对的图片训练网络模型,提取特征向量,计算帧间欧氏距离,直至通过特征向量能够判断帧间相似性。步骤2.3:将相邻两个关键帧成对输入到网络模型中,通过卷积、激活、池化和全连接后,输出两个128维的向量。步骤2.4:计算这两个特征向量的欧式距离,比较相似度。D(x1,x2)越小,向量之间的相似度越大,反之相似度越小。然后通过循环和迭代建立一个n×n的相似度矩阵,矩阵中的每个值表示两张图片之间的相似度,其中,n表示有n个关键帧。其中,i表示关键帧的序号。步骤3:利用图卷积网络将关键帧聚类,实现视频智能拆条。图卷积神经网络可以处理具有广义拓扑图结构的数据,并深入发掘其特征和规律。视频中的关键帧就相当于一个结点,然后根据帧与帧之间的相似度以及它们的时序关系构建拓扑图输入到图卷积神经网络中,使相似的结点聚到一起,达到视频分割的效果。步骤如下:步骤3.1:把每一个关键帧当成一个枢纽,根据相似度矩阵和时序关系构建实例枢纽子图Gp(Vp,Ep),其中,Vp表示枢纽p邻居结点的集合,Ep表示p实例枢纽子图的边集;对于任意一个枢纽p,若结点和它的相似度在50%以上以及该结点的帧号与枢纽帧号差值在55以内则把该结点添加到Vp中,然后以同样的方式搜寻Vp中结点vi(i表示结点序号)的邻居结点,并在vi和它的邻居结点之间建立边。步骤3.2:把实例枢纽子图输入到图卷积神经网络中处理,输出衡量每个结点和枢纽结点相连可能性的分数。特征在层与层之间的传播方式用公式表示如下:Hi=f(Hi-1,A),其中H0=Xf(Hi,A)=σ(AHiWi)其中Hi是第i层的特征矩阵,当i=0时,H0就表示输入图的节点特征矩阵。A是输入图的邻接矩阵,Wi表示第i层的权重矩阵,σ表示非线性激活函数。通过邻接矩阵左乘特征矩阵,实现特征的聚合操作,然后再右乘权重矩阵,实现加权操作。优化函数使用交叉熵损失函数。步骤3.3:使用概率分布函数Softmax将向量转换为概率,得到整个图的权重矩阵,每个权重表示结点和枢纽之间存在链接的可能性。然后使用宽度优先搜索算法(BFS算法)传播伪标签合并所有可能相连的结点。最后把链接可能性较小的结点之间的边切断,获得最终的聚类。本专利技术提出的一种基于图卷积网络的视频智能拆条技术,利用帧间相似度与时序关系对关键帧进行聚类,可处理任意场景的新闻视频。应当理解的是,本说明书未详细阐述的部分均属于现有技术;上述针对较佳实施例的描述较为详细,并不能因此而认为是对本专利技术专利保护范围的限制,本领域的普通技术人员在本专利技术的启示下,在不脱离本专利技术权利要求所保护的范围情况下,还可以做出替换或本文档来自技高网...

【技术保护点】
1.一种基于图卷积神经网络的视频智能拆条方法,其特征在于,包括以下步骤:/n步骤1:针对原始输入视频,使用帧间差分法提取关键帧;/n步骤2:构建Siamase深度学习网络,提取关键帧的特征向量,通过计算帧间欧式距离建立相似度矩阵;/n步骤3:利用图卷积网络将关键帧聚类,实现视频智能拆条。/n

【技术特征摘要】
1.一种基于图卷积神经网络的视频智能拆条方法,其特征在于,包括以下步骤:
步骤1:针对原始输入视频,使用帧间差分法提取关键帧;
步骤2:构建Siamase深度学习网络,提取关键帧的特征向量,通过计算帧间欧式距离建立相似度矩阵;
步骤3:利用图卷积网络将关键帧聚类,实现视频智能拆条。


2.根据权利要求1所述的基于图卷积神经网络的视频智能拆条方法,其特征在于,步骤1的具体实现包括以下子步骤:
步骤1.1:读取视频并依次计算每两帧之间的帧间差分,进而得到平均帧间差分强度D(x,y);



其中,fk(x,y)和fk+1(x,y)分别为第k帧和k+1帧图像,w和h为图像的长和宽;
步骤1.2:基于步骤1得到的平均帧间差分强度,选择具有平均帧间差分强度局部最大值的帧作为视频的关键帧。


3.根据权利要求1所述的基于图卷积神经网络的视频智能拆条方法,其特征在于,步骤2的具体实现包括以下子步骤:
步骤2.1:构建Siamase深度学习网络模型,在所述网络模型内部搭建两个相同、权重共享的CNN网络;
步骤2.2:输入成对的图片训练网络模型,提取特征向量,计算帧间欧氏距离,直至通过特征向量能够判断帧间相似性;
步骤2.3:将相邻两个关键帧成对输入到网络模型中,通过卷积、激活、池化和全连接后,输出两个128维的向量;
步骤2.4:计算这两个特征向量的欧式距离D(x1,x2),比较相似度;D(x1,x2)越小,向量之间的相似度越大,反之相似度越小;然后通过循环和迭代建立一个n×n的相...

【专利技术属性】
技术研发人员:王中元裴盈娇黄宝金陈何玲
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1