一种基于图卷积神经网络的视频智能拆条方法技术

技术编号：24093095 阅读：70 留言：0更新日期：2020-05-09 08:58

本发明专利技术公开了一种基于图卷积神经网络的视频智能拆条方法，包括关键帧提取、帧间相似度计算和帧聚类三个步骤。首先，基于帧间差分实现关键帧提取，将差距较大的相邻帧作为关键帧；然后，通过Siamase孪生网络得到相似度矩阵，矩阵中的元素即为关键帧之间的欧氏距离；最后，利用相似度矩阵和关键帧之间的时序关系构建拓扑图，通过卷积神经网络对关键帧进行聚类，实现故事分类，从而达到视频智能拆条目的。本发明专利技术可以准确地将视频划分为具有特定语义的视频片段，具有显著的应用价值。

An intelligent video striping method based on graph convolution neural network

全部详细技术资料下载

【技术实现步骤摘要】
一种基于图卷积神经网络的视频智能拆条方法
本专利技术属于人工智能
，涉及一种视频智能拆条方法，具体涉及一种基于图卷积神经网络的视频智能拆条方法。技术背景随着移动互联网的深入发展、用户使用习惯的转变，用户对短视频的需求日益增多。目前大部分视频拆分都是由人工逐帧预览的手动拆条，不仅耗时费力也不满足新媒体视听节目快速发布的时效性要求。因此视频智能拆条技术的应用可以大大提高工作效率，有效提高新媒体的传播速度。它通过对非结构化的视频数据进行特征或结构分析，采用视频分割技术快速地把一个长视频，按照内容情节拆分成多个独立的具有特定语义的短视频片段。现有的对新闻视频进行拆分的方法大致分为两类。第一类利用视频中主题单元变换时的镜头时空特征对新闻视频进行划分，比如语音停顿、说话者的改变、主播的出现等。但是这种传统的方法普适性不强，只能用于某些特定的视频。第二类利用文本识别和拼接或音频处理等对同一个故事中的连续镜头进行合并来检测故事边界。判断两个镜头是否属于同一个故事的准则为两个镜头对应的语义是否具有关联性。基于语义相似性评估的故事分割方法，其依据为多个镜头之间的视觉相似性与时域距离长短。现有研究利用镜头中提取的多种音频-视频特征来评估语义相似性。但是在新闻视频中，一个故事的镜头之间并非严格遵循语义相似度的原则。因此，对于镜头之间缺乏语义相关的故事片段，这种方法就无法准确地分割。综上，现有故事分割方法均局限于某一种特定的视频场景与内容，不能适用于一般性的视频场景。
技术实现思路
为了解...

【技术保护点】
1.一种基于图卷积神经网络的视频智能拆条方法，其特征在于，包括以下步骤：/n步骤1：针对原始输入视频，使用帧间差分法提取关键帧；/n步骤2：构建Siamase深度学习网络，提取关键帧的特征向量，通过计算帧间欧式距离建立相似度矩阵；/n步骤3：利用图卷积网络将关键帧聚类，实现视频智能拆条。/n

【技术特征摘要】
1.一种基于图卷积神经网络的视频智能拆条方法，其特征在于，包括以下步骤：
步骤1：针对原始输入视频，使用帧间差分法提取关键帧；
步骤2：构建Siamase深度学习网络，提取关键帧的特征向量，通过计算帧间欧式距离建立相似度矩阵；
步骤3：利用图卷积网络将关键帧聚类，实现视频智能拆条。

2.根据权利要求1所述的基于图卷积神经网络的视频智能拆条方法，其特征在于，步骤1的具体实现包括以下子步骤：
步骤1.1：读取视频并依次计算每两帧之间的帧间差分，进而得到平均帧间差分强度D(x，y)；

其中，fk(x，y)和fk+1(x，y)分别为第k帧和k+1帧图像，w和h为图像的长和宽；
步骤1.2：基于步骤1得到的平均帧间差分强度，选择具有平均帧间差分强度局部最大值的帧作为视频的关键帧。

3.根据权利要求1所述的基于图卷积神经网络的视频智能拆条方法，其特征在于，步骤2的具体实现包括以下子步骤：
步骤2.1：构建Siamase深度学习网络模型，在所述网络模型内部搭建两个相同、权重共享的CNN网络；
步骤2.2：输入成对的图片训练网络模型，提取特征向量，计算帧间欧氏距离，直至通过特征向量能够判断帧间相似性；
步骤2.3：将相邻两个关键帧成对输入到网络模型中，通过卷积、激活、池化和全连接后，输出两个128维的向量；
步骤2.4：计算这两个特征向量的欧式距离D(x1，x2)，比较相似度；D(x1，x2)越小，向量之间的相似度越大，反之相似度越小；然后通过循环和迭代建立一个n×n的相...

【专利技术属性】
技术研发人员：王中元，裴盈娇，黄宝金，陈何玲，
申请(专利权)人：武汉大学，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人