视频内容的识别方法、系统、设备和介质技术方案

技术编号：41735226 阅读：21 留言：0更新日期：2024-06-19 12:55

本发明专利技术提供一种视频内容的识别方法、系统、设备及介质。方法包括：获取待识别的视频，并从视频中依序提取出所有视频帧；其中，视频帧中具有时间戳；对于每个视频帧：将视频帧输入至变分自编码器模型的编码器模块，提取视频帧中的频谱特征和空间特征，并进行编码，获得视频帧的编码结果；按照各个视频帧的时间戳，将所有编码结果进行拼接，形成视频的类时频谱数据；将类时频谱数据输入至目标检测模型，获得预测结果；其中，预测结果包括视频中目标内容的位置和目标内容的类别；将预测结果映射回视频，从视频中定位出目标内容并标识出目标内容的类别。解决了现有技术中无法实现实时视频识别的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视频识别领域，特别涉及一种视频内容的识别方法、系统、设备和介质。

技术介绍

1、在当今时代，智能手机、移动设备以及配备多摄像头的系统的广泛普及，极大地便利了用户创建和分享视频内容。特别是社交媒体平台，它们不仅鼓励用户生成内容，还促成了用户之间的视频分享，进一步催生了视频数据量的指数级增长。此外，城市安全监控、交通管理、无人驾驶汽车等
，也不断产生大量的监控视频数据，都会导致视频数据的急剧膨胀。面对如此庞大体量的视频数据，如何高效地检索和定位到特定视频或特定的视频内容，是目前面临的一个难题。

2、现有技术已经开发出多种视频图像识别算法，涵盖了目标检测、目标跟踪、视频动作识别等多个方面。然而，这些方法在处理海量视频数据时，常常受限于其处理速度，无法满足实时或近实时的应用需求。这一局限性不仅影响了视频分析的效率，也限制了视频监控等实际应用的功能和可行性。因此，需要提供一种视频内容的识别方法、系统、设备和介质。

技术实现思路

1、本专利技术提供一种视频内容的识别方法。以解决现有技术中对于海量视频，无法实现实时视频识别的问题。

2、本专利技术提供的一种视频内容的识别方法，包括：获取待识别的视频，并从视频中依序提取出所有视频帧；其中，视频帧中具有时间戳；对于每个视频帧：将视频帧输入至变分自编码器模型的编码器模块，提取视频帧中的频谱特征和空间特征，并进行编码，获得视频帧的编码结果；按照各个视频帧的时间戳，将所有编码结果进行拼接，形成视频的类时频谱数据；

3、于本专利技术一实施例中，所述变分自编码器模型包括编码器模块和解码器模块，利用预先获取的视频帧数据集分别对所述变分自编码器模型和所述编码器模块进行交替训练，直至所述变分自编码器模型的损失函数收敛，所述变分自编码器模型训练完成。

4、于本专利技术一实施例中，所述视频帧数据集中包括多个不同分辨率的视频帧。

5、于本专利技术一实施例中，所述变分自编码器模型的训练过程包括：将所述视频帧数据集输入至变分自编码器模型的编码器模块，获得编码结果；其中，所述编码结果是多变量正态分布；将编码结果输入至所述变分自编码器的解码器模块，生成重构图；基于重构图与所述视频帧数据集的差异度，以及编码结果和预设的标准正态分布的差异度，计算所述变分自编码器模型的损失函数，并在所述损失函数未收敛时，依据所述损失函数调整所述变分自编码器模型的参数。

6、于本专利技术一实施例中，所述变分自编码器模型的损失函数floss为：其中，xi为输入的第i个视频帧，为解码器模块生成的第i个重构图，为xi与的均方差损失，α为预设的权重超参数，n(μ,σ)为编码器模块中计算的正态分布，kl(n(μ,σ),n(0,1)为n(μ,σ)与标准正态分布的kl散度。

7、于本专利技术一实施例中，所述编码器模块的训练过程包括：将所述视频帧数据集进行傅里叶变换，生成所述视频帧数据集的频谱图；将所述视频帧数据集输入至变分自编码器模型的编码器模块，获得所述视频帧数据集的编码结果；基于编码结果和对应频谱图的差异度，计算所述编码器模块的损失函数，并依据所述编码器模块的损失函数调整所述编码器模块的参数。

8、于本专利技术一实施例中，所述编码器模块的损失函数lloss为：其中，yi为第i个视频帧的频谱图，为yi的编码结果。

9、于本专利技术一实施例中，还提供了一种视频内容的识别系统，所述系统包括：数据获取模块，用于获取待识别的视频；视频帧提取模块，用于从所述视频中依序提取出多个视频帧；编码结果生成模块，用于对于每个视频帧：将视频帧输入至变分自编码器模型的编码器模块，提取视频帧中的频谱特征和空间特征，并进行编码，获得视频帧的编码结果；类时频谱数据构建模块，用于按照各个视频帧的时间戳，将所有编码结果进行拼接，形成所述视频的类时频谱数据；结果预测模块，用于将所述类时频谱数据输入至目标检测模型，获得预测结果；其中，所述预测结果包括所述视频中目标内容的位置和目标内容的类别；映射模块，用于将所述预测结果映射回所述视频，从所述视频中定位出目标内容并标识出所述目标内容的类别。

10、于本专利技术一实施例中，还提供一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现上述任一项所述的视频内容的识别方法。

11、于本专利技术一实施例中，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被计算机的处理器执行时，使计算机执行上述任一项所述的视频内容的识别方法。

12、本专利技术提出的一种视频内容的识别方法、系统、设备及介质。通过变分自编码器模型的编码器模块对视频帧进行压缩，压缩的编码结果不仅保留了原视频帧信息，同时还具有原视频帧的频谱特征，将编码结果按照时序方式拼接为二维图，即类时频谱数据。将类时频谱数据作为目标检测模型的输入，将目标检测模型的输出结果映射至原视频中，能够准确地定位出原视频中目标内容所在的具体时间段，并识别出目标内容的类别。本专利技术所述的视频内容的识别方法在处理大量视频数据时具有较高的时效性和准确性。

本文档来自技高网...

【技术保护点】

1.一种视频内容的识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的视频内容的识别方法，其特征在于，所述变分自编码器模型包括编码器模块和解码器模块，利用预先获取的视频帧数据集分别对所述变分自编码器模型和所述编码器模块进行交替训练，直至所述变分自编码器模型的损失函数收敛，所述变分自编码器模型训练完成。

3.根据权利要求2所述的视频内容的识别方法，其特征在于，所述视频帧数据集中包括多个不同分辨率的视频帧。

4.根据权利按要求2所述的视频内容的识别方法，其特征在于，所述变分自编码器模型的训练过程包括：

5.根据权利要求4所述的视频内容的识别方法，其特征在于，所述变分自编码器模型的损失函数Floss为：其中，Xi为输入的第i个视频帧，为解码器模块生成的第i个重构图，为Xi与的均方差损失，α为预设的权重超参数，N(μ,σ)为编码器模块中计算的正态分布，KL(N(μ,σ),N(0,1)为N(μ,σ)与标准正态分布的KL散度。

6.根据权利要求2所述的视频内容的识别方法，其特征在于，所述编码器模块的训练过程包括：

<...

【技术特征摘要】

1.一种视频内容的识别方法，其特征在于，所述方法包括：

3.根据权利要求2所述的视频内容的识别方法，其特征在于，所述视频帧数据集中包括多个不同分辨率的视频帧。

4.根据权利按要求2所述的视频内容的识别方法，其特征在于，所述变分自编码器模型的训练过程包括：

5.根据权利要求4所述的视频内容的识别方法，其特征在于，所述变分自编码器模型的损失函数floss为：其中，xi为输入的第i个视频帧，为解码器模块生成的第i个...

【专利技术属性】
技术研发人员：刘凯，李丽，王庆峰，
申请(专利权)人：上海锡鼎智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人