视频信息识别方法、装置以及计算机可读存储介质制造方法及图纸

技术编号：40300436 阅读：28 留言：0更新日期：2024-02-07 20:47

本申请公开了一种视频信息识别方法、装置以及计算机可读存储介质。通过获取待识别视频中的多个语音片段数据和多个视频帧数据；根据每个语音聚类样本类别对多个语音片段数据进行聚类处理，以及根据每个图像聚类样本类别对多个视频帧数据进行聚类处理；建立聚类得到的语音片段特征集中语音片段特征与图像特征集中图像特征之间的特征匹配关系；基于特征匹配关系，对图像特征集进行优化处理，以及，对语音片段特征集进行优化处理；提取待识别视频中的对象信息及信息时序关系，并根据对象信息及信息时序关系对优化后目标语音片段特征集和目标图像特征集进行信息标注，以确定待识别视频中的目标对象信息。以此，提高视频信息识别精确度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机，具体涉及一种视频信息识别方法、装置以及计算机可读存储介质。

技术介绍

1、随着信息技术的发展，视频业务已广泛呈现在各业务领域，如视频播放应用、短视频应用、视频小程序、视频录制等。然而，在视频业务中，对视频内容信息的识别，以便将识别到的视频内容信息应用于其他场景，如视频推荐、人物特征识别等，其在业务拓展应用上具有极大意义。

2、相关技术在对视频内容信息进行识别时，主要是基于有监督深度学习方式，通过单模态信息度对视频进行识别，识别出对应的视频内容信息，以用于相关业务拓展应用场景。

3、目前，相关技术在对视频内容信息进行识别时，其依赖于视频中的标注数据，而视频中有限的标注数据，使得所能够识别到的视频内容信息有限，无法广泛适用于视频内容信息识别范围，不利于视频内容信息在业务拓展应用中的使用。

技术实现思路

1、本申请实施例提供一种视频信息识别方法、装置以及计算机可读存储介质，无需依赖于视频中的标注数据对目标视频信息进行识别，可广泛适用于视频内容信息识别范围，有利于视频信息在业务拓展应用中的使用，提高视频信息识别精确度。

2、本申请实施例提供一种视频信息识别方法，包括：

3、获取待识别视频对应的多个语音片段数据和多个视频帧数据，并确定多个语音聚类样本类别和多个图像聚类样本类别；

4、根据每个语音聚类样本对所述多个语音片段数据进行聚类处理，得每个语音聚类样本类别对应的语音片段特征集，以及根据每个图像聚类样本类别对所述

5、按照预设特征映射关系，建立所述语音片段特征集中语音片段特征与所述图像特征集中图像特征之间的特征匹配关系；

6、基于所述特征匹配关系，对所述图像特征集进行优化，得到优化后的目标图像特征集，以及，对所述语音片段特征集进行优化，得到优化后的目标语音片段特征集；

7、提取所述待识别视频中的对象信息及信息时序关系，并根据所述对象信息及信息时序关系对所述目标语音片段特征集及所述目标图像特征集进行信息标注，得到对象信息标注结果；

8、根据所述对象信息标注结果，确定所述待识别视频中的目标对象信息。

9、相应的，本申请实施例提供一种视频信息识别装置，包括：

10、获取单元，用于获取待识别视频对应的多个语音片段数据和多个视频帧数据，并确定多个语音聚类样本类别和多个图像聚类样本类别；

11、聚类单元，用于根据每个语音聚类样本对所述多个语音片段数据进行聚类处理，得每个语音聚类样本类别对应的语音片段特征集，以及根据每个图像聚类样本类别对所述多个视频帧数据进行聚类处理，得每个图像聚类样本类别对应的图像特征集；

12、匹配单元，用于按照预设特征映射关系，建立所述语音片段特征集中语音片段特征与所述图像特征集中图像特征之间的特征匹配关系；

13、处理单元，用于基于所述特征匹配关系，对所述图像特征集进行优化处理，得到优化后的目标图像特征集，以及，对所述语音片段特征集进行优化处理，得到优化后的目标语音片段特征集；

14、标注单元，用于提取所述待识别视频中的对象信息及信息时序关系，并根据所述对象信息及信息时序关系对所述目标语音片段特征集及所述目标图像特征集进行信息标注，得到对象信息标注结果；

15、识别单元，用于根据所述对象信息标注结果，识别所述待识别视频中的目标对象信息。

16、在一些实施方式中，所述聚类单元，还用于：

17、确定每一语音聚类样本类别对应的语音聚类样本特征；

18、分别对所述多个语音片段数据进行特征提取，得到多个语音片段特征；

19、根据每一语音片段特征与所述语音聚类样本特征之间的特征距离进行聚类处理，得到每个语音聚类样本类别对应的语音片段特征集。

20、在一些实施方式中，所述聚类单元，还用于：

21、针对每一语音片段特征，分别与多个所述语音聚类样本特征之间进行二阶范数计算，得到多个特征距离值，并根据所述多个特征距离值对当前的语音片段特征进行预聚类，得到每一语音聚类样本特征对应的初聚类语音特征集；

22、根据所述每一语音聚类样本特征及对应的初聚类语音特征集中的语音片段特征，计算所述初聚类语音特征集中处于中间特征的第二语音聚类样本特征；

23、针对所述每一语音片段特征，分别与多个所述第二语音聚类样本特征之间进行二阶范数计算，得到多个第二特征距离值，并根据所述多个第二特征距离值对当前的语音片段特征进行重新聚类，直至重新聚类后的语音特征集停止更新，得到每个语音聚类样本对应的语音片段特征集。

24、在一些实施方式中，所述聚类单元，还用于：

25、从所述每一语音片段特征对应的所述多个特征距离值中选取最小的特征距离值，并将所述最小的特征距离值确定为目标特征距离值；

26、针对所述每一语音片段特征，确定所述目标特征距离值对应的目标语音聚类样本特征；

27、将当前的语音片段特征预聚类至所述目标语音聚类样本特征，得到初聚类语音特征集。

28、在一些实施方式中，所述视频信息识别装置还包括建立单元，用于：

29、获取样本视频的图像语音特征样本对，所述图像语音特征样本对包含图像特征样本和对应的语音特征样本；

30、基于预设核典型关联分析算法，生成所述图像特征样本对应的图像特征投影参数和所述语音特征样本对应的语音特征投影参数；

31、建立所述语音特征投影参数与所述图像特征投影参数之间的关联关系，得到所述图像语音特征样本对的样本特征映射关系，并将所述样本特征映射关系确定为预设特征映射的关系。

32、在一些实施方式中，所述匹配单元，还用于：

33、分别对所述语音片段特征集中的语音片段特征和所述图像特征集中的图像特征进行过滤处理，得到过滤后的典型语音片段特征和典型图像特征；

34、根据所述预设特征映射关系，确定语音特征投影参数和图像特征投影参数；

35、根据所述语音特征投影参数和所述图像特征投影参数，建立所述典型语音片段特征与所述典型图像特征之间的模态类别映射，得到特征匹配关系。

36、在一些实施方式中，所述处理单元，还用于：

37、根据所述特征匹配关系，对多个所述语音片段特征集与多个所述图像特征集之间进行特征集匹配，得到多个模态匹配特征集对；

38、针对每一模态匹配特证集对，计算具有特征集匹配关系的目标语音片段特征集与目标图像特征集之间的第一特征集距离值；

39、确定每一目标图像特征集中的典型图像特征，将所述典型图像特征遍历分配至其他图像特征集，得到分配后的其他图像特征集，并对每一目标语音片段特征集与所述分配后的其他图像特征集之间进行特征集距离计算，得到每一目标语音片段特征集对应的多个第二特征集距离本文档来自技高网...

【技术保护点】

1.一种视频信息识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据每个语音聚类样本对所述多个语音片段数据进行聚类处理，得每个语音聚类样本类别对应的语音片段特征集，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据每一语音片段特征与所述语音聚类样本特征之间的特征距离进行聚类处理，得到每个语音聚类样本对应的语音片段特征集，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述多个特征距离值对当前的语音片段特征进行预聚类，得到每一语音聚类样本特征对应的初聚类语音特征集，包括：

5.根据权利要求1所述的方法，其特征在于，所述按照预设特征映射关系，建立所述语音片段特征集中语音片段特征与所述图像特征集中图像特征之间的特征匹配关系之前，还包括：

6.根据权利要求1所述的方法，其特征在于，所述按照预设特征映射关系，建立所述语音片段特征集中语音片段特征与所述图像特征集中图像特征之间的特征匹配关系，包括：

7.根据权利要求1所述的方法，其特征在于，所述基于所述特征匹配关系，对所述图像

8.根据权利要求1所述的方法，其特征在于，所述根据所述对象信息及信息时序关系对所述目标语音片段特征集及所述目标图像特征集进行信息标注，得到对象信息标注结果，包括：

9.一种视频信息识别装置，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至8任一项所述的视频信息识别方法中的步骤。

...

【技术特征摘要】

1.一种视频信息识别方法，其特征在于，包括：

5.根据权利要求1所述的方法，其特征在于，所述按照预设特征映射关系，建立所述语音片段特征集中语音片段特征与所述图像特征集中图像特征之间的特征匹配关系之前，还包括：...

【专利技术属性】
技术研发人员：白宁，
申请(专利权)人：游密科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人