System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 视频类别确定方法和装置制造方法及图纸_技高网

视频类别确定方法和装置制造方法及图纸

技术编号:43552424 阅读:3 留言:0更新日期:2024-12-06 17:28
本发明专利技术实施例提供了一种视频类别确定方法和装置,其中,该方法包括:获取多个视频数据集作为训练样本,其中,训练样本包括支撑集和测试集;通过预训练网络分别提取支撑集和测试集的关键帧,并基于支撑集通过Faiss方法构建关键帧检索库;通过预先设定的小样本分类方法基于测试集的关键帧和关键帧检索库进行分类训练,得到分类模型;获取待分类的视频,通过分类模型对待分类的视频进行分类,得到分类结果。通过本发明专利技术,解决了视频某一维度信息的分类结果不够准确的问题,达到对视频维度信息分类更准确的效果。

【技术实现步骤摘要】

本专利技术实施例涉及视频分类领域,具体而言,涉及一种视频类别确定方法和装置


技术介绍

1、对于视频平台而言,视频内容安全保障是一项基本需求。现有的视频内容安全检测技术是基于传统的视频分类方法,主要技术路线为针对视频某一种模态下的关键信息进行分类,例如视频内容中的背景或人物的行为,受其数据规模和建模方法的限制,这类技术无法检测出与某个领域(例如经济)直接相关的因素,或者更加细粒度和具备更高级别的语义特征,例如视频“是否存在颠倒是非”,“是否符合时代背景”和“是否存在价值观导向问题”等,此外还存在涉政数据集难以收集和模型容易过拟合等问题,此类视频在实际媒体宣传安全检测中具有重要的功能和指导意义。

2、目前最常用的视频分类方法主要是设计一个深度学习模型(例如[1]slowfast、[2]videoswin、[3]videomae等),并在一个大规模的人工标注好的视频数据集上进行单标签或多标签的训练。对于待分类的视频,先抽取特定数量的关键帧作为训练好的分类模型的输入,以模型输出的分类结果作为其标签。

3、目前用大量人工标注的视频数据训练一个视频分类深度学习模型的方法可以完成基本的视频分类任务,但是所得到的类别标签必须与视频某一特定信息直接相关,而且无法通过视频内容的高级语义来推测更具备某种因素特征的标签,另外这些工作的分类类别之间完全独立缺乏内在联系、类别总数受数据集标注规模限制。

4、由此可知,相关技术中存在视频某一维度信息的分类结果不够准确的问题。

5、针对相关技术中存在的上述问题,目前尚未提出有效的解决方案。


技术实现思路

1、本专利技术实施例提供了一种视频类别确定方法和装置,以至少解决相关技术中存在视频某一维度信息的分类结果不够准确的问题。

2、根据本专利技术的一个实施例,提供了一种视频类别确定方法,包括:获取多个视频数据集作为训练样本,其中,所述训练样本包括支撑集和测试集;通过预训练网络分别提取所述支撑集和所述测试集的关键帧,并基于所述支撑集通过faiss方法构建关键帧检索库;通过预先设定的小样本分类方法基于所述测试集的关键帧和所述关键帧检索库进行分类训练,得到分类模型;获取待分类的视频,通过所述分类模型对所述待分类的视频进行分类,得到分类结果。

3、进一步地,通过预训练网络分别提取所述支撑集和所述测试集的关键帧,并基于所述支撑集通过faiss方法构建关键帧检索库包括:提取所述支撑集和所述测试集的关键帧;对所述支撑集和所述测试集中的关键帧分别使用大规模预训练网络clip进行特征提取,得到关键帧特征,对所述关键帧特征做归一化处理,得到归一化特征;基于所述支撑集通过开源库faiss构建检索库,其中,所述检索库中包含所述关键帧数量和指定维度的特征向量。

4、进一步地,通过预先设定的小样本分类方法基于所述测试集的关键帧和所述关键帧检索库进行分类训练,得到分类模型包括:通过k近邻算法确定k个检索结果中政治类别最多的关键帧作为目标样本的类别第一预测结果;计算所述测试视频中单个关键帧和所述支撑集的关键帧检索库中的支撑样本的帧间距离,将测试集中的每个视频的关键帧完成检索迭代,并将所述帧间距离参数进行求和作为所述测试视频和支撑视频之间的平均帧间距离,与测试视频的平均帧间距离最小的支撑视频作为第二预测结果;计算所述测试视频和每个小样本类别内所有支撑视频的平均帧间距离的平均值,取平均帧间距离最小的类别作为测试视频的第三预测结果;根据所述第一预测结果、所述第二预测结果和所述第三预测结果修正所述分类模型,得到目标分类模型。

5、进一步地,在得到分类模型之后,所述方法还包括:对所述训练样本进行预处理和标注;构建分类网络,将预处理后的预训练网络作为主干,使用线性层作为分类头,从视频关键帧中随机选取连续n帧作为网络输入,得到视频预测类别;根据所述视频预测类别对所述目标分类模型进行再次修正。

6、进一步地,基于所述支撑集通过开源库faiss构建检索库之后,所述方法还包括:通过以下公式计算样本之间的相似度指标:其中,di为帧间距离,x和xi分别为待检索样本和支撑集中的任意关键帧。

7、进一步地,所述指定维度为政治维度。

8、根据本专利技术的另一个实施例,提供了一种视频类别确定装置,包括:第一获取单元,用于获取多个视频数据集作为训练样本,其中,所述训练样本包括支撑集和测试集;提取单元,用于通过预训练网络分别提取所述支撑集和所述测试集的关键帧,并基于所述支撑集通过faiss方法构建关键帧检索库;训练单元,用于通过预先设定的小样本分类方法基于所述测试集的关键帧和所述关键帧检索库进行分类训练,得到分类模型;第二获取单元,用于获取待分类的视频,通过所述分类模型对所述待分类的视频进行分类,得到分类结果。

9、进一步地,所述提取单元包括:提取模块,用于提取所述支撑集和所述测试集的关键帧;处理模块,用于对所述支撑集和所述测试集中的关键帧分别使用大规模预训练网络clip进行特征提取,得到关键帧特征,对所述关键帧特征做归一化处理,得到归一化特征;构建模块,用于基于所述支撑集通过开源库faiss构建检索库,其中,所述检索库中包含所述关键帧数量和指定维度的特征向量。

10、根据本专利技术的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

11、根据本专利技术的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

12、通过本专利技术,获取多个视频数据集作为训练样本,其中,所述训练样本包括支撑集和测试集;通过预训练网络分别提取所述支撑集和所述测试集的关键帧,并基于所述支撑集通过faiss方法构建关键帧检索库;通过预先设定的小样本分类方法基于所述测试集的关键帧和所述关键帧检索库进行分类训练,得到分类模型;获取待分类的视频,通过所述分类模型对所述待分类的视频进行分类,得到分类结果,因此,可以解决相关技术中存在的视频某一维度信息的分类结果不够准确的问题,达到对视频维度信息分类更准确的效果。

本文档来自技高网...

【技术保护点】

1.一种视频类别确定方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,通过预训练网络分别提取所述支撑集和所述测试集的关键帧,并基于所述支撑集通过Faiss方法构建关键帧检索库包括:

3.根据权利要求1所述的方法,其特征在于,通过预先设定的小样本分类方法基于所述测试集的关键帧和所述关键帧检索库进行分类训练,得到分类模型包括:

4.根据权利要求3所述的方法,其特征在于,在得到分类模型之后,所述方法还包括:

5.根据权利要求2所述的方法,其特征在于,基于所述支撑集通过开源库Faiss构建检索库之后,所述方法还包括:

6.根据权利要求2所述的方法,其特征在于,所述指定维度为政治维度。

7.一种视频类别确定装置,其特征在于,包括:

8.根据权利要求7所述的装置,其特征在于,所述提取单元包括:

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至6任一项中所述的方法。

10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至6任一项中所述的方法。

...

【技术特征摘要】

1.一种视频类别确定方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,通过预训练网络分别提取所述支撑集和所述测试集的关键帧,并基于所述支撑集通过faiss方法构建关键帧检索库包括:

3.根据权利要求1所述的方法,其特征在于,通过预先设定的小样本分类方法基于所述测试集的关键帧和所述关键帧检索库进行分类训练,得到分类模型包括:

4.根据权利要求3所述的方法,其特征在于,在得到分类模型之后,所述方法还包括:

5.根据权利要求2所述的方法,其特征在于,基于所述支撑集通过开源库faiss构建检索库之后,所述方...

【专利技术属性】
技术研发人员:王磊潘进刘洋刘晓辉郭承禹张翠张子琦宋鑫宇
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1