一种基于多模态信息融合的视频问答方法、系统及介质技术方案

技术编号：42873078 阅读：5 留言：0更新日期：2024-09-27 17:33

本发明专利技术公开了一种基于多模态信息融合的视频问答方法、系统及介质，属于计算机视觉技术领域，用于解决视频问答技术依赖于单一模态信息，无法充分利用视频中蕴含的多模态信息，视频检索的效率和准确性不足的技术问题。包括：视频文件基础信息提取得到视频摘要及文本字幕；对文本字幕语句切分得到字幕片段，获取对应的视频片段及音频片段；对每个音频片段进行聚类得到若干个声纹类型簇；获取每个声纹类型簇对应的视频镜头集以及字幕集，获取每类声纹对应的人物标签；根据视频片段以及字幕片段，获取关键帧向量以及字幕片段向量；将全部信息存入向量数据库；基于视频摘要对用户输入的问题进行意图分析，并调用向量数据库进行视频检索及问题回答。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉，尤其涉及一种基于多模态信息融合的视频问答方法、系统及介质。

技术介绍

1、在当今信息时代，视频内容的广泛应用和迅速增长使得视频数据的管理和检索变得尤为重要。传统的视频检索方法大多依赖于单一模态的信息，如根据视频的图像内容或音频内容进行检索，这种单一模态的信息难以全面准确地描述视频内容的多样性和复杂性。

2、而现有的视频问答系统在处理复杂视频信息时，通常也只依赖于从视频内容中分析出的单一模态信息，无法充分利用视频中蕴含的多模态信息进行全面的分析，限制了对视频内容的理解和检索能力，导致检索效率和准确性不足。特别是在会议视频、教学视频等需要对人物发言内容进行详细分析的应用场景中，目前的技术无法满足用户对视频精准检索和视频问答的需求。

技术实现思路

1、本专利技术实施例提供了一种基于多模态信息融合的视频问答方法、系统及介质，用于解决如下技术问题：目前的视频问答技术依赖于单一模态信息，无法充分利用视频中蕴含的多模态信息，导致视频检索的效率和准确性不足。

2、本专利技术实施例采用下述技术方案：

3、一方面，本专利技术实施例提供了一种基于多模态信息融合的视频问答方法，方法包括：对输入视频文件进行基础信息提取，得到视频摘要以及文本字幕；

4、对所述文本字幕进行语句切分，得到字幕片段，并根据所述字幕片段，获取对应的视频片段及音频片段；

5、将每个音频片段映射为声纹向量并进行聚类，得到若干个声纹类型簇；

7、根据所述视频片段以及所述字幕片段，获取关键帧向量以及字幕片段向量；

8、以片段为单位，将所述关键帧向量、字幕片段向量、人物标签、视频片段、字幕片段、音频片段及对应的时间戳存入向量数据库；

9、基于所述视频摘要对用户输入的问题进行意图分析，根据分析结果调用所述向量数据库进行视频检索及问题回答。

10、在一种可行的实施方式中，对输入视频文件进行基础信息提取，得到视频摘要以及文本字幕，具体包括：

11、对输入视频文件进行通道拆分，得到视频通道信息及音频通道信息；

12、通过多模态大模型对所述视频通道信息进行总结得到所述视频摘要；

13、使用paraformer语音识别模型对所述音频通道信息进行特征提取，输出为文本字幕并输出所述文本字幕中每个字的时间戳。

14、在一种可行的实施方式中，对所述文本字幕进行语句切分，得到字幕片段，并根据所述字幕片段，获取对应的视频片段及音频片段，具体包括：

15、通过分段工具，以标点符号为切分点，对所述文本字幕按句进行语句切分，得到若干个字幕片段；

16、根据每个字幕片段开头字符的时间戳及结尾字符的时间戳，确定出每个字幕片段对应的时间区间；

17、根据所述时间区间，对所述视频通道信息及音频通道信息分别进行切分，得到所述视频片段及音频片段。

18、在一种可行的实施方式中，将每个音频片段映射为声纹向量并进行聚类，得到若干个声纹类型簇，具体包括：

19、通过声纹识别模型对每个音频片段进行特征提取，并映射到高维向量空间，得到每个音频片段对应的声纹向量；

20、通过聚类算法对所有声纹向量进行聚类，得到若干个声纹类型簇；其中，每个声纹类型簇中的声纹向量默认为同一个说话人的声纹向量。

21、在一种可行的实施方式中，获取每个声纹类型簇对应的视频镜头集以及字幕集，并输入多模态模型中，得到每类声纹对应的人物标签，具体包括：

22、将每个声纹类型簇中，每个声纹向量对应的视频片段进行拼接，得到每类声纹的视频镜头集；

23、将每个声纹类型簇中，每个声纹向量对应的字幕片段进行拼接，得到每类声纹的字幕集；

24、通过对每类视频镜头集的封面帧进行ocr识别，并通过多模态大模型对每类视频镜头集与字幕集进行声纹来源判断；

25、根据ocr识别结果以及声纹来源判断结果，确定每类声纹对应的人物信息；其中，所述人物信息至少包括：人物姓名、人物衣着特征以及声音来源；

26、根据所述人物信息，生成每类声纹对应的人物标签。

27、在一种可行的实施方式中，根据所述视频片段以及所述字幕片段，获取关键帧向量以及字幕片段向量，具体包括：

28、提取每个视频片段的关键帧；

29、通过所述多模态模型，对所述关键帧以及所述字幕片段进行向量化处理，得到所述关键帧向量及字幕片段向量。

30、在一种可行的实施方式中，基于所述视频摘要对用户输入的问题进行意图分析，具体包括：

31、获取用户输入的问题，并对所述问题进行向量化处理，得到问题向量；

32、分析所述问题向量与存储的各个视频摘要的相关性，以及分析所述问题向量中隐含的人物特征；

33、根据所述相关性以及人物特征进行用户意图分析，得到意图分析结果；

34、其中，所述意图分析结果至少包括：指向特定的说话人、未指向特定的说话人但与某个视频摘要相关、与所有视频摘要均无关。

35、在一种可行的实施方式中，根据分析结果调用所述向量数据库进行视频检索及问题回答，具体包括：

36、若意图分析结果指向特定的说话人，则获取该说话人的人物标签，并根据所述人物标签在所述向量数据库中检索对应的视频片段及字幕片段，并输入多模态大模型中进行问题问答；

37、若意图分析结果未具体指向特定的说话人但与某个视频摘要相关，则将所述问题向量与所述向量数据库中的关键帧向量及字幕片段向量进行混合相似度计算并排序，并将排序结果输入所述多模态大模型中进行问题回答；

38、若意图分析结果与所有视频摘要均无关，则将所述问题向量直接输入大语言模型中进行问题回答。

39、另一方面，本专利技术实施例还提供了一种基于多模态信息融合的视频问答系统，所述系统包括：

40、基础信息提取模块，用于对输入视频文件进行基础信息提取，得到视频摘要以及文本字幕；

41、视频切分模块，用于对所述文本字幕进行语句切分，得到字幕片段，并根据所述字幕片段，获取对应的视频片段及音频片段；

42、声纹识别模块，用于将每个音频片段映射为声纹向量并进行聚类，得到若干个声纹类型簇；获取每个声纹类型簇对应的视频镜头集以及字幕集，并输入多模态模型中，得到每类声纹对应的人物标签；

43、向量存储模块，用于根据所述视频片段以及所述字幕片段，获取关键帧向量以及字幕片段向量；以片段为单位，将所述关键帧向量、字幕片段向量、人物标签、视频片段、字幕片段、音频片段及对应的时间戳存入向量数据库；

44、意图识别及问答模块，用于基于所述视频摘要对用户输入的问题进行意图分析，根据分析结果调用所述向量数据库进行视本文档来自技高网...

【技术保护点】

1.一种基于多模态信息融合的视频问答方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于多模态信息融合的视频问答方法，其特征在于，对输入视频文件进行基础信息提取，得到视频摘要以及文本字幕，具体包括：

3.根据权利要求2所述的一种基于多模态信息融合的视频问答方法，其特征在于，对所述文本字幕进行语句切分，得到字幕片段，并根据所述字幕片段，获取对应的视频片段及音频片段，具体包括：

4.根据权利要求1所述的一种基于多模态信息融合的视频问答方法，其特征在于，将每个音频片段映射为声纹向量并进行聚类，得到若干个声纹类型簇，具体包括：

5.根据权利要求1所述的一种基于多模态信息融合的视频问答方法，其特征在于，获取每个声纹类型簇对应的视频镜头集以及字幕集，并输入多模态模型中，得到每类声纹对应的人物标签，具体包括：

6.根据权利要求1所述的一种基于多模态信息融合的视频问答方法，其特征在于，根据所述视频片段以及所述字幕片段，获取关键帧向量以及字幕片段向量，具体包括：

7.根据权利要求1所述的一种基于多模态信息融合的视

8.根据权利要求7所述的一种基于多模态信息融合的视频问答方法，其特征在于，根据分析结果调用所述向量数据库进行视频检索及问题回答，具体包括：

9.一种基于多模态信息融合的视频问答系统，其特征在于，所述系统包括：

10.一种存储介质，其特征在于，所述存储介质为非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储有至少一个程序，每个所述程序包括指令，所述指令当被终端执行时，使所述终端执行根据权利要求1-8任一项所述的一种基于多模态信息融合的视频问答方法。

...

【技术特征摘要】

1.一种基于多模态信息融合的视频问答方法，其特征在于，所述方法包括：

6.根据...

【专利技术属性】
技术研发人员：王光鑫，李雪，陈其宾，姜凯，李锐，
申请(专利权)人：山东浪潮科学研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人