一种视频分析结果输出方法、装置、设备及介质制造方法及图纸

技术编号：44098880 阅读：7 留言：0更新日期：2025-01-21 12:31

本申请公开了一种视频分析结果输出方法、装置、设备及介质，用以实现更高效率的视频分析。本申请提供的方法包括：获取待分析的视频，以及用户输入的文本提示词；基于视频，得到视频帧序列，视频帧序列中包括至少一帧图像；将视频帧序列输入视觉编码器进行特征提取，并输出每一帧图像的特征矩阵；基于每一帧图像的特征矩阵，确定至少一个相似度组，每一相似度组中包括至少一个图像的特征矩阵，同一相似度组中的图像的特征矩阵之间的相似度大于第一预设阈值；针对每一相似度组，对该相似度组中的图像的特征矩阵进行采样，确定该相似度组对应的采样结果；利用每一相似度组对应的采样结果、文本提示词，通过大语言模型，输出视频分析结果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及视觉分析，尤其涉及一种视频分析结果输出方法、装置、设备及介质。

技术介绍

1、随着基础视觉模型的发展，计算视觉的研究工作重心开始向视频理解转移，计算机视觉最终目的是实现类似于人类视觉的人工智能，从静态视觉（图像）到动态视觉（视频），是关键且具有挑战的一步。

技术实现思路

1、本申请实施例提供了一种视频分析结果输出方法、装置、设备及介质，用以基于用户输入的文本提示词实现更高效率的视频分析，并为用户输出准确的视频分析结果。

2、本申请实施例提供的一种视频分析结果输出方法，包括：

3、获取待分析的视频，以及用户输入的文本提示词；

4、基于所述视频，得到视频帧序列，所述视频帧序列中包括至少一帧图像；

5、将所述视频帧序列输入预设的视觉编码器，通过所述视觉编码器进行特征提取，并输出每一帧图像的特征矩阵；

6、基于所述每一帧图像的特征矩阵，确定至少一个相似度组，其中，每一所述相似度组中包括至少一个图像的特征矩阵，同一相似度组中的图像的特征矩阵之间的相似度大于第一预设阈值；

7、针对每一所述相似度组，对该相似度组中的图像的特征矩阵进行采样，确定该相似度组对应的采样结果；

8、利用每一所述相似度组对应的采样结果，以及所述文本提示词，通过预设的大语言模型，输出视频分析结果。

9、本申请实施例提供的视频分析结果输出方法，通过获取待分析的视频，以及用户输入的文本提示词，并基于所述视频，得到视频帧序列

10、在一些实施例中，所述方法还包括：

11、将所述视觉编码器输出的每一帧图像的特征矩阵，作为第一特征矩阵，输入预设的视觉适配器，通过所述视觉适配器进行特征提取，并输出每一帧图像的第二特征矩阵；

12、基于所述每一帧图像的特征矩阵，确定至少一个相似度组，包括：

13、将所述每一帧图像的第二特征矩阵，输入预设的用于确定至少一个相似度组的相似度组模块，通过所述相似度组模块得到至少一个所述相似度组。

14、在一些实施例中，针对每一所述相似度组，对该相似度组中的图像的特征矩阵进行采样，确定该相似度组对应的采样结果，包括：

15、针对每一所述相似度组，采用如下方式从该相似度组中的图像的特征矩阵中选取图像的特征矩阵，作为该相似度组对应的采样结果：

16、选取与当前帧的时间最接近的视频帧的特征矩阵；

17、和/或，选取与当前帧的特征矩阵的相似度最低的视频帧的特征矩阵。

18、在一些实施例中，利用每一所述相似度组对应的采样结果，以及所述文本提示词，通过预设的大语言模型，输出视频分析结果，包括：

19、利用每一所述相似度组对应的采样结果，生成当前事件特征组；所述当前事件特征组中包括至少一个图像的特征矩阵，所述当前事件特征组中的图像的特征矩阵之间的相似度，大于第二预设阈值；

20、将所述当前事件特征组，以及所述文本提示词，输入预设的大语言模型；

21、通过所述大语言模型，得到视频分析结果。

22、在一些实施例中，所述视觉编码器通过至少一层多头自注意力层，对每一帧图像进行特征提取；

23、通过所述视觉编码器进行特征提取，包括：

24、对于每一帧图像，在每一层多头自注意力层输出特征提取结果之后，针对该层多头自注意力层输出特征提取结果，进行稀疏化处理；

25、或者，对于每一帧图像，在预设的多头自注意力层输出特征提取结果之后，针对该层多头自注意力层输出特征提取结果，进行稀疏化处理。

26、在一些实施例中，所述方法还包括：

27、对于任一所述相似度组，若该相似度组与当前事件的相关性小于第二预设阈值，且该相似度组的生成时间距离当前事件的时间间隔大于第三预设阈值，则清除该相似度组。

28、在一些实施例中，所述大语言模型中包括大语言模型的低秩适应lora模块。

29、本申请实施例提供的一种视频分析结果输出装置，包括：

30、输入模块，用于获取待分析的视频，以及用户输入的文本提示词；

31、解码模块，用于基于所述视频，得到视频帧序列，所述视频帧序列中包括至少一帧图像；

32、视觉编码器，用于对所述视频帧序列进行特征提取，并输出每一帧图像的特征矩阵；

33、相似度组模块，用于基于所述每一帧图像的特征矩阵，确定至少一个相似度组，其中，每一所述相似度组中包括至少一个图像的特征矩阵，同一相似度组中的图像的特征矩阵之间的相似度大于第一预设阈值；

34、采样模块，用于针对每一所述相似度组，对该相似度组中的图像的特征矩阵进行采样，确定该相似度组对应的采样结果；

35、大语言模型，用于基于每一所述相似度组对应的采样结果，以及所述文本提示词，输出视频分析结果。

36、在一些实施例中，在所述视觉编码器和所述相似度组模块之间，所述装置还包括：

37、视觉适配器，用于获取所述视觉编码器输出的每一帧图像的特征矩阵，并作为第一特征矩阵，对所述每一帧图像的第一特征矩阵进行特征提取，并输出每一帧图像的第二特征矩阵；

38、所述相似度组模块，基于所述每一帧图像的第二特征矩阵，得到至少一个所述相似度组。

39、本申请另一实施例提供了一种电子设备，其包括存储器和处理器，其中，所述存储器用于存储程序指令，所述处理器用于调用所述存储器中存储的程序指令，按照获得的程序执行上述任一种方法。

40、本申请另一实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使所述计算机执行上述任一种方法。

本文档来自技高网...

【技术保护点】

1.一种视频分析结果输出方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，针对每一所述相似度组，对该相似度组中的图像的特征矩阵进行采样，确定该相似度组对应的采样结果，包括：

4.根据权利要求1所述的方法，其特征在于，利用每一所述相似度组对应的采样结果，以及所述文本提示词，通过预设的大语言模型，输出视频分析结果，包括：

5.根据权利要求1所述的方法，其特征在于，所述视觉编码器通过至少一层多头自注意力层，对每一帧图像进行特征提取；

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述大语言模型中包括大语言模型的低秩适应LoRA模块。

8.一种视频分析结果输出装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，在所述视觉编码器和所述相似度组模块之间，所述装置还包括：

10.一种电子设备，其特征在于，包括：

...

【技术特征摘要】

1.一种视频分析结果输出方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述视觉编码器通过至少一层多头自注意力层，对每一帧图像进行特征提取；

...

【专利技术属性】
技术研发人员：周永哲，徐聪，吴忠人，黄鹏，殷俊，陆晓栋，
申请(专利权)人：浙江大华技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人