视频标签的识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：41657272 阅读：20 留言：0更新日期：2024-06-14 15:19

本申请涉及一种视频标签的识别方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：基于视频中的视频帧和候选标签确定所述视频帧的全局信息；根据所述视频帧中的图像块和所述候选标签确定所述视频帧的局部信息；针对所述视频中的各视频帧，分别对各所述视频帧的全局信息和各所述视频帧的局部信息进行时空聚合，得到时空全局信息和时空局部信息；对所述时空全局信息和所述时空局部信息进行融合，得到融合信息；在所述候选标签中，基于所述融合信息识别出所述视频所属的标签。采用本方法能够有效提高视频标签的识别效率和准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及视频处理，特别是涉及一种视频标签的识别方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

1、视频标签识别是视频内容特征中重要的一部分，为海量的视频自动生成标签，可以为下游内容分发链路提供不同粒度的视频内容特征，提升内容分发的效率，同时大幅度减少人工进行内容审核的成本。

2、传统技术方案中，最常见的方法是标注大量的样本训练模型，用来预测视频的标签。具体来说，先定义一个候选的标签集合，从业务数据中采样一批数据送人工进行标注，审核员观看每个视频，并从候选的标签集合中选取一个标签作为与视频相关的标签，然而由于人为因素影响，这个标签识别过程通常需要耗费较长的时间且准确率不高，造成视频标签的识别效率和准确率低下的问题。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种视频标签的识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品，能够有效提高视频标签的识别效率和准确率。

2、第一方面，本申请提供了一种视频标签的识别方法，所述方法包括：

3、基于视频中的视频帧和候选标签确定所述视频帧的全局信息；

4、根据所述视频帧中的图像块和所述候选标签确定所述视频帧的局部信息；

5、针对所述视频中的各视频帧，分别对各所述视频帧的全局信息和各所述视频帧的局部信息进行时空聚合，得到时空全局信息和时空局部信息；

6、对所述时空全局信息和所述时空局部信息进行融合，得到融合信息；

7、在所述候选

8、第二方面，本申请还提供了一种视频标签的识别装置，所述装置包括：

9、第一确定模块，用于基于视频中的视频帧和候选标签确定所述视频帧的全局信息；

10、第二确定模块，用于根据所述视频帧中的图像块和所述候选标签确定所述视频帧的局部信息；

11、聚合模块，用于针对所述视频中的各视频帧，分别对各所述视频帧的全局信息和各所述视频帧的局部信息进行时空聚合，得到时空全局信息和时空局部信息；

12、融合模块，用于对所述时空全局信息和所述时空局部信息进行融合，得到融合信息；

13、识别模块，用于在所述候选标签中，基于所述融合信息识别出所述视频所属的标签。

14、在其中的一个实施例中，所述装置还包括：

15、处理模块，用于对各所述视频帧的全局信息进行时序平滑处理，得到平滑后全局信息；对各所述视频帧的局部信息进行时序平滑处理，得到平滑后局部信息；

16、所述聚合模块，还用于对各所述视频帧的平滑后全局信息进行时空聚合，得到时空全局信息；对各所述视频帧的平滑后局部信息进行时空聚合，得到时空局部信息。

17、在其中的一个实施例中，所述全局信息包括全局相似信息，所述装置还包括：

18、编码模块，用于分别对所述视频中的视频帧和文本序列中的第一描述信息进行编码，得到所述视频帧的第一视频特征和所述第一描述信息的描述特征；所述第一描述信息是基于标签集内的所述候选标签形成的视频描述信息；

19、所述第一确定模块，还用于基于所述第一视频特征和所述描述特征确定所述视频帧的全局相似信息；所述全局相似信息包括所述视频帧与所述候选标签之间的相似值。

20、在其中的一个实施例中，所述局部信息包括局部相似信息，所述装置还包括：

21、编码模块，用于对所述视频帧的图像块进行编码，得到所述图像块的第二视频特征；

22、所述第二确定模块，还用于基于所述第二视频特征和所述描述特征确定所述视频帧的局部相似信息；所述局部相似信息包括所述视频帧的图像块与所述候选标签之间的相似值。

23、在其中的一个实施例中，所述视频帧包括采样视频帧；所述装置还包括：

24、解码模块，用于对所述视频进行视频解码，得到视频帧序列；

25、采样模块，用于确定采样间隔，按照所述采样间隔对在所述视频帧序列中进行视频帧采样，得到所述视频的采样视频帧。

26、在其中的一个实施例中，所述融合模块，还用于确定所述时空全局信息中的元素和所述时空局部信息中的元素之间的均值，得到融合信息；或者，对所述时空全局信息中的元素和所述时空局部信息中的元素进行加权求和，得到融合信息。

27、在其中的一个实施例中，所述装置还包括：

28、切分模块，用于将所述视频中的视频帧切分成相同数量的图像块；或者，按照金字塔式的切分方式对所述视频中的视频帧进行切分，得到对应的图像块；其中，不同所述视频帧的图像块数量不相同。

29、在其中的一个实施例中，所述识别模块，还用于基于所述融合信息确定所述视频的多标签分布得分；或者，将所述融合信息作为所述视频的多标签分布得分；在所述候选标签中，根据所述多标签分布得分确定所述视频所属的标签。

30、在其中的一个实施例中，所述装置还包括：

31、训练模块，用于将所述多标签分布得分满足得分条件的所述标签作为正样本标签；将所述多标签分布得分不满足所述得分条件的所述标签作为负样本标签；将多个所述视频作为训练样本，基于所述训练样本、所述正样本标签和所述负样本标签对初始分类模型进行训练，得到分类模型。

32、在其中的一个实施例中，所述装置还包括：

33、获取模块，用于获取所述训练样本的音频，并从所述音频中提取出音频特征；获取所述训练样本的第二描述信息，并从所述第二描述信息中提取出描述特征；所述第二描述信息是所述训练样本的视频描述信息；

34、所述训练模块，还用于分别编码所述训练样本中的视频帧样本和所述视频帧样本中的图像块样本，得到所述视频帧样本的第三视频特征和所述图像块样本的第四视频特征；基于所述第三视频特征、所述第四视频特征、所述第二描述信息的描述特征和所述音频特征对初始分类模型进行训练，以使所述训练样本的预测标签与所述正样本标签、所述负样本标签之间的相似值达到预设相似条件，得到分类模型。

35、在其中的一个实施例中，所述获取模块，用于通过音频特征提取器提取出所述音频中的音频特征；通过目标双向编码器对所述第二描述信息进行编码，得到所述第二描述信息的描述特征；

36、所述训练模块，还用于通过视觉特征编码器对所述训练样本中的视频帧样本和所述视频帧样本中的图像块样本进行编码，得到所述视频帧样本的第三视频特征和所述图像块样本的第四视频特征。

37、第三方面，本申请还提供了一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现所述视频标签的识别方法的步骤。

38、第四方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述视频标签的识别方法的步骤。

39、第五方面，本申请还提供了一种计算机程本文档来自技高网...

【技术保护点】

1.一种视频标签的识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述分别对各所述视频帧的全局信息和各所述视频帧的局部信息进行时空聚合之前，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述全局信息包括全局相似信息，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述局部信息包括局部相似信息，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述视频帧包括采样视频帧；

6.根据权利要求1所述的方法，其特征在于，所述对所述时空全局信息和所述时空局部信息进行融合，得到融合信息包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述视频帧中的图像块和所述候选标签确定所述视频帧的局部信息之前，所述方法还包括：

8.根据权利要求1、5至7任一项所述的方法，其特征在于，所述在所述候选标签中，基于所述融合信息识别出所述视频所属的标签包括：

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

10.根据权

11.根据权利要求10所述的方法，其特征在于，所述从所述音频中提取出音频特征包括：

12.一种视频标签的识别装置，其特征在于，所述装置包括：

13.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。

15.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。

...

【技术特征摘要】