视频内容的完整度识别方法、装置、设备及存储介质制造方法及图纸

技术编号:27500631 阅读:16 留言:0更新日期:2021-03-02 18:24
本申请公开了一种视频内容的完整度识别方法、装置、设备及存储介质,涉及深度学习领域。通过人工智能技术构建出视频完整度识别模型,利用计算机设备实现识别视频完整度的功能。该方法包括:获取视频文件和视频文件的视频发布信息,视频发布信息表示在发布视频文件对应的视频内容时所提供的信息;从视频文件中分离出音频数据;从音频数据中提取音频特征,从视频发布信息中提取文本特征;将音频特征和文本特征进行拼接,得到拼接后的特征;对拼接后的特征进行识别,得到视频文件对应的视频内容的完整度。通过对视频文件对应的音频特征和文本特征拼接后的向量进行识别,综合多个维度的特征确定视频内容的完整度,使得视频完整度审核的准确率提高。审核的准确率提高。审核的准确率提高。

【技术实现步骤摘要】
视频内容的完整度识别方法、装置、设备及存储介质


[0001]本申请涉及深度学习领域,特别涉及一种视频内容的完整度识别方法、装置、设备及存储介质。

技术介绍

[0002]短视频是指视频时长在几秒至几分钟不等的视频,短视频通常在应用程序中以消息来源(Feeds)流的形式呈现在用户的面前。
[0003]短视频创作者将短视频上传至短视频平台,短视频平台对上传的短视频进行审核,审核通过的短视频根据相关的推荐算法推荐至用户对应的客户端。在一些情况下,短视频创作者为了提升收益,会发布大量类似或者重复的视频内容,这些视频内容很多是通过视频剪辑工具自动剪辑产生的,使得短视频的质量得不到保障。示意性的,在这些短视频中可能包含一些不完整的音频内容,如,短视频中的歌声戛然而止,短视频平台对此类短视频的审核结果为视频内容不完整,不允许视频发布在短视频平台上。
[0004]在上述情况中,以人工审核的方式,需要审核人员观看每个上传至短视频平台的短视频,审核过程耗时较长,审核效率较低。

技术实现思路

[0005]本申请实施例提供了一种视频内容的完整度识别方法、装置、设备及存储介质。通过对视频文件对应的音频特征和文本特征拼接后的向量进行识别,综合多个维度的特征确定视频内容的完整度,使得视频完整度审核的准确率提高。所述技术方案包括:
[0006]根据本申请的一方面,提供了一种视频内容的完整度识别方法,所述方法包括:
[0007]获取视频文件和所述视频文件的视频发布信息,所述视频发布信息表示在发布所述视频文件对应的视频内容时所提供的信息;
[0008]从所述视频文件中分离出音频数据;
[0009]从所述音频数据中提取音频特征,从所述视频发布信息中提取文本特征;
[0010]将所述音频特征和所述文本特征进行拼接,得到拼接后的特征;
[0011]对所述拼接后的特征进行识别,得到所述视频文件对应的视频内容的完整度。
[0012]根据本申请的另一方面,提供了一种视频内容的完整度识别装置,所述装置包括:
[0013]获取模块,用于获取视频文件和所述视频文件的视频发布信息,所述视频发布信息表示在发布所述视频文件对应的视频内容时所提供的信息;
[0014]处理模块,用于从所述视频文件中分离出音频数据;
[0015]特征提取模块,用于从所述音频数据中提取音频特征,从所述视频发布信息中提取文本特征;
[0016]所述处理模块,用于将所述音频特征和所述文本特征进行拼接,得到拼接后的特征;
[0017]识别模块,用于对所述拼接后的特征进行识别,得到所述视频文件对应的视频内
容的完整度。
[0018]根据本申请的另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的视频内容的完整度识别方法。
[0019]根据本申请的另一方面,提供了一种计算机可读存储介质,所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的视频内容的完整度识别方法。
[0020]根据本申请的另一方面,提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行如上方面所述的视频内容的完整度识别方法。
[0021]本申请实施例提供的技术方案带来的有益效果至少包括:
[0022]通过将视频文件对应的音频特征和文本特征进行拼接,使得视频完整度识别模型能够从多个维度对视频内容进行识别,综合多个维度的特征确定视频内容的完整度,相比于人工审核的方式,提高了视频完整度的审核效率,同时通过对视频内容的完整度识别,计算机设备能够将完整的视频推荐给用户,使得用户能够收到高质量的视频内容。
附图说明
[0023]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0024]图1是本申请一个示例性实施例提供的计算机系统的框架图;
[0025]图2是本申请一个示例性实施例提供的视频内容的完整度识别的流程图;
[0026]图3是本申请一个示例性实施例提供的视频内容生产端和视频内容消费端的系统框架图;
[0027]图4是本申请另一个示例性实施例提供的视频内容的完整度识别的流程图;
[0028]图5是本申请一个示例性实施例提供的特征提取方法的流程框架图;
[0029]图6是本申请一个示例性实施例提供的含有人声的频谱图;
[0030]图7是本申请一个示例性实施例提供的视频完整度识别模型的训练方法的流程图;
[0031]图8是本申请一个示例性实施例提供的样本视频的标注示意图;
[0032]图9是本申请一个示例性实施例提供的视频完整度识别模型的输出层的结构示意图;
[0033]图10是本申请另一个示例性实施例提供的视频内容生产端和视频内容消费端的系统框架图;
[0034]图11是本申请一个示例性实施例提供的视频内容的完整度识别装置的结构示意
图;
[0035]图12是本申请一个示例性实施例提供的服务器的结构示意图。
具体实施方式
[0036]为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
[0037]首先,对本申请实施例涉及的名词进行介绍。
[0038]梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients,MFCC):是指在声音处理领域中,基于声音频率的非线性梅尔刻度(Mel Scale)的对数能量频谱的线性变换。梅尔频率是基于人耳听觉特性提出的概念,梅尔频率与声音频率成非线性对应关系,梅尔频率倒谱系数则利用这一对应关系计算出声音的频谱特征。MFCC的过程一般包括:预加重、分帧、加窗、快速傅里叶变换(Fast Fourier Transform,FFT)、梅尔滤波器组和离散余弦变换(Discrete Cosine Transform,DCT)。
[0039]类视觉几何组网络模型(VGGish):是指基于油管(Youtube)的AudioSet数据集训练得到,类似于视觉几何组网络模型(Visual Geometry Group Network,VGG)的音频模型,AudioSet数据集是一个由200万人标记的10秒YouTube视频音本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频内容的完整度识别方法,其特征在于,所述方法包括:获取视频文件和所述视频文件的视频发布信息,所述视频发布信息表示在发布所述视频文件对应的视频内容时所提供的信息;从所述视频文件中分离出音频数据;从所述音频数据中提取音频特征,从所述视频发布信息中提取文本特征;将所述音频特征和所述文本特征进行拼接,得到拼接后的特征;对所述拼接后的特征进行识别,得到所述视频文件对应的视频内容的完整度。2.根据权利要求1所述的方法,其特征在于,所述对所述拼接后的特征进行识别,得到所述视频文件对应的视频内容的完整度,包括:调用视频完整度识别模型对所述拼接后的特征进行识别,得到所述视频文件对应的视频内容属于完整视频内容的预测概率;根据所述预测概率得到所述视频文件对应的视频内容的完整度。3.根据权利要求2所述的方法,其特征在于,所述视频完整度识别模型是通过如下方式获得的:获取样本视频文件和所述样本视频文件的样本视频发布信息,所述样本视频文件对应的样本视频标注有视频内容完整度,所述样本视频发布信息表示在发布所述样本视频文件对应的视频内容时所提供的信息;从所述样本视频对应的音频数据中提取样本音频特征,从所述样本视频发布信息中提取样本文本特征;将所述样本音频特征和所述样本文本特征进行拼接,得到拼接后的样本特征;对所述拼接后的样本特征进行识别,得到所述样本视频文件对应的样本视频的内容预测完整度;根据所述内容预测完整度和所述样本视频标注的视频内容完整度对所述视频完整度识别模型进行训练,得到训练后的视频完整度识别模型。4.根据权利要求3所述的方法,其特征在于,所述根据所述内容预测完整度和所述样本视频标注的视频内容完整度对所述视频完整度识别模型进行训练,得到训练后的视频完整度识别模型,包括:计算所述内容预测完整度和所述视频内容完整度的误差损失;根据所述误差损失对所述视频完整度识别模型进行训练,得到所述训练后的视频完整度识别模型。5.根据权利要求4所述的方法,其特征在于,所述计算所述内容预测完整度和所述视频内容完整度的误差损失,包括:获取所述视频完整度识别模型对应的激活函数;根据所述激活函数、所述内容预测完整度和所述视频内容完整度,得到用于二分类的交叉熵损失函数;根据所述用于二分类的交叉熵损失函数计算所述内容预测完整度和所述视频内容完整度的误差损失。6.根据权利要求4所述的方法,其特征在于,所述根据所述误差损失对所述视频完整度识别模型进行训练,得到所述训练后的视频完整度识别模型,包括:
通过用于二分类的交叉熵损失函数计算所述误差损失,所述用于二分类的交叉熵损失函数是通过所述视频完整度识别模型对应的激活函数、所述内容预测完整度和所述视频内容完整度得到的;响应于所述误差损失收敛,得到所述视频完整度识别模型对应的权重矩阵和偏移向量,所述权重矩阵用于表征所述样本视频文件对所述视频完整度识别模型输出所述内容预测完整度的影响程度,所述...

【专利技术属性】
技术研发人员:刘刚
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1