System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及视频理解领域,具体涉及一种大模型改进特征提取的精彩镜头检测方法与系统。
技术介绍
1、近年来,视频已经成为人们传递信息的重要载体。海量的视频给人们带来了视觉上的享受,同时也携带了大量的冗余信息。人们希望过滤冗余信息、快速找到视频中的精彩镜头的需求,催生和促进了视频精彩镜头检测任务的研究。视频精彩镜头检测任务的目标在于,在给定一个用户查询语句时,快速检索出相应给定视频中与用户查询语句相关的精彩视频片段。为了完成这一目标,需要有效地建模视频与查询文本之间的关联。然而,视频与查询文本是两种不同形式的信息载体,如何使这两种不同的信息载体充分交互,进而高效地完成视频精彩镜头检测任务,是一个关键挑战。
2、目前主流的视频时刻检索方法是使用深度神经网络来建模视频与查询文本之间的交互,并利用相应的人工标注数据集进行训练。然而,这种方法通常需要极高的人工成本,难以获得充足的训练数据。因此,一些方法采用了预训练的图像-文本模型(如clip)来提取视频帧的特征和文本特征,然后将这些特征输入到一个小模型中,并使用少量的人工标注数据进行训练,以此来利用现有的成熟图像-文本数据的知识,提高视频精彩镜头检测的准确率。后来,大模型逐渐发展成熟,但大多数是自然语言大模型,仅有解码器而缺乏合适的编码器来获取预训练特征。
3、目前的现有技术之一是专利“一种基于跨模态推理的视频重要镜头检测方法与系统(cn118053096a)”。该方法首先对视频的视觉、音频和文本信息进行编码和融合,并利用注意力机制捕获上下文信息,然后通过多层感知
技术实现思路
1、本专利技术的目的是克服现有方法的不足,提出了一种大模型改进特征提取的精彩镜头检测方法与系统。本专利技术解决的主要问题是,如何减少对人工标注数据的依赖、提高特征提取的质量从而提升视频内容理解和检索的准确性和效率,并提高方法的泛化性。
2、为了解决上述问题,本专利技术提出了一种大模型改进特征提取的精彩镜头检测方法,所述方法包括:
3、输入待处理视频,按一定时间间隔提取视频帧,使视频帧能够有效代表该段时间内的特征,对提取的视频帧进行预处理操作,得到预处理的视频帧,记所述预处理的视频帧的数量为n;
4、将n个所述预处理的视频帧输入文本图像语言大模型blip2,得到n组视频帧的文本描述;
5、将n个所述预处理的视频帧和n组所述视频帧的文本描述输入预训练图像文本模型clip,提取总体图像特征和总体文本特征,将总体图像特征和总体文本特征融合,得到融合特征x∈rn×d,其中d为单个特征的维度;
6、利用所述融合特征x计算镜头精彩分数,将镜头精彩分数输入损失函数对模型进行训练,得到训练后的模型;
7、用户将视频和查询语句输入所述训练后的模型,得到视频中和查询语句相关的精彩视频片段。
8、优选地,所述预处理操作,具体为:
9、将所述视频帧像素大小调整为224×224,并将调整像素大小后的所述视频帧归一化,使每个像素点的rgb取值范围为[0,1]
10、优选地,所述将n个所述预处理的视频帧和n组所述视频帧的文本描述输入预训练图像文本模型clip,提取总体图像特征和总体文本特征,将总体图像特征和总体文本特征融合,得到融合特征x∈rn×d,具体为:
11、将n个所述预处理的视频帧输入预训练图像文本模型clip,对于每一个所述预处理的视频帧,得到一维向量vi∈r1×d作为该视频帧的视频图像特征,i∈[1,n],则对于全部提取的视频帧,可得到总体图像特征v∈rn×d;
12、将n组所述视频帧的文本描述输入预训练图像文本模型clip,对于每一组所述视频帧的文本描述,得到若干个一维的文本特征,其中,将第一个一维的文本特征指定为该组文本描述的总体特征ti∈r1×d,将n组文本描述的总体特征拼接起来得到总体文本特征,记为t∈rn×d;
13、将总体图像特征和总体文本特征按照以下公式进行融合:
14、x=norm(v+t,dim=-1),
15、其中,norm表示归一化,dim=-1表示仅在最后一个维度进行归一化,即计算融合特征最后一个维度的均值μ和方差σ,并将融合特征的最后一个维度的每一个值减去均值μ并除以方差σ。
16、优选地,所述利用所述融合特征x计算镜头精彩分数s,将镜头精彩分数输入损失函数对模型进行训练,得到训练后的模型,具体为:
17、使用一个线性映射网络linear,将所述融合特征x映射为维度1,再经过sigmoid函数将其值映射到[0,1],得到n个镜头精彩分数s∈rn×1,如下式所示:
18、s=sigmoid(linear(x)),
19、记一个镜头精彩分数为si,i∈[1,n],利用所述镜头精彩分数s使用交叉熵损失函数对模型进行训练,记真实标签为gi,i∈[1,n],则交叉熵损失函数mse具体为:
20、
21、相应地,本专利技术还提供了一种大模型改进特征提取的精彩镜头检测系统,包括:
22、预处理单元,用于输入待处理视频,按一定时间间隔提取视频帧,使视频帧能够有效代表该段时间内的特征,对提取的视频帧进行预处理操作,得到预处理的视频帧,记所述预处理的视频帧的数量为n;将n个所述预处理的视频帧输入文本图像语言大模型blip2,得到n组视频帧的文本描述;
23、特征提取与融合单元,用于将n个所述预处理的视频帧和n组所述视频帧的文本描述输入预训练图像文本模型clip,提取总体图像特征和总体文本特征,将总体图像特征和总体文本特征融合,得到融合特征x∈rn×d,其中d为单个特征的维度;
24、镜头精彩分数计算与模型训练单元,用于利用所述融合特征x计算镜头精彩分数,将镜头精彩分数输入损失函数对模型进行训练,得到训练后的模型;
25、应用单元,用于用户将视频和查询语句输入所述训练后的模型,得到视频中和查询语句相关的精彩视频片段。
26、实施本专利技术,具有如下有益效果:
27、本专利技术基于描述增强的视频精彩镜头检测方法能够显著提升视频内容理解和检索的准确性与效率。本专利技术通过利用自然语言处理大模型自动生成视频帧的描述文本,结合预训练的图像-文本模型(如clip)来提取特征,不仅减少了对大量人工标注数据的依赖,降低了数据准备阶段的成本,还因为融合了视觉与语义信息,提高了特征的质量和表达能力。高质量的特征使得模型能够更好地理解视频内容,从而增强视频精彩镜头检测的性能。此外,本专利技术的灵活性允许其轻松集成到现有的视频分析框架中,为视频内容分析领域提供了新的研究方向和技术手本文档来自技高网...
【技术保护点】
1.一种大模型改进特征提取的精彩镜头检测方法,其特征在于,所述方法包括:
2.如权利要求1所述的一种大模型改进特征提取的精彩镜头检测方法,其特征在于,所述预处理操作,具体为:
3.如权利要求1所述的一种大模型改进特征提取的精彩镜头检测方法,其特征在于,所述将N个所述预处理的视频帧和N组所述视频帧的文本描述输入预训练图像文本模型CLIP,提取总体图像特征和总体文本特征,将总体图像特征和总体文本特征融合,得到融合特征X∈RN×D,具体为:
4.如权利要求1所述的一种大模型改进特征提取的精彩镜头检测方法,其特征在于,所述利用所述融合特征X计算镜头精彩分数S,将镜头精彩分数输入损失函数对模型进行训练,得到训练后的模型,具体为:
5.一种大模型改进特征提取的精彩镜头检测系统,其特征在于,所述系统包括:
6.如权利要求5所述的一种大模型改进特征提取的精彩镜头检测系统,其特征在于,所述预处理单元中的预处理操作,具体为:
7.如权利要求5所述的一种大模型改进特征提取的精彩镜头检测系统,其特征在于,所述将N个所述预处理的视频帧
8.如权利要求5所述的一种大模型改进特征提取的精彩镜头检测系统,其特征在于,所述利用所述融合特征X计算镜头精彩分数S,将镜头精彩分数输入损失函数对模型进行训练,得到训练后的模型,具体为:
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
...【技术特征摘要】
1.一种大模型改进特征提取的精彩镜头检测方法,其特征在于,所述方法包括:
2.如权利要求1所述的一种大模型改进特征提取的精彩镜头检测方法,其特征在于,所述预处理操作,具体为:
3.如权利要求1所述的一种大模型改进特征提取的精彩镜头检测方法,其特征在于,所述将n个所述预处理的视频帧和n组所述视频帧的文本描述输入预训练图像文本模型clip,提取总体图像特征和总体文本特征,将总体图像特征和总体文本特征融合,得到融合特征x∈rn×d,具体为:
4.如权利要求1所述的一种大模型改进特征提取的精彩镜头检测方法,其特征在于,所述利用所述融合特征x计算镜头精彩分数s,将镜头精彩分数输入损失函数对模型进行训练,得到训练后的模型,具体为:
5.一种大模型改进特征提取的精彩镜头检测系统,其特征在于,所述系统包括:
6.如权利要求5所述的一种大模型改进特征提取的精彩镜头检测系统,其特征在于...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。