System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及检索,特别涉及基于指令引导gpt的文本检索视频方法、系统和设备。
技术介绍
1、随着youtube、抖音等视频媒体软件的出现和流行,越来越多的用户通过视频记录并分享日常生活,因此每天都有海量的视频、文本等数据在网络上产生和传播。如此纷繁复杂的数据导致传统的单模态检索限制了用户对获取信息全面性、灵活性的需求,也增加了企业对数据进行管理的成本。为了更好地解决这些问题,文本视频跨模态检索开始受到研究者的广泛关注,作为多模态视觉和语义理解领域的一个重要研究方向,其旨在分析描述性文本以从语料库中找到最佳匹配的视频。
2、早期文本视频跨模态检索主要采用基于概念的方法,即从视频中提取概念与文本单词进行对齐,通过计算文本与视频概念间的相似度,从而确定检索结果。但此类方法存在一个明显的缺点:很难仅通过几个选定的概念来描述视频和文本中丰富的序列信息。
3、现有的文本视频跨模态检索方法,虽然取得了不错的检索性能。然而,此类方法均假设文本描述与视频之间存在很强的语义关系,却忽略了其中潜在的弱语义文本描述。具体而言,无论是当前的文本视频检索数据集还是现实场景,都存在大量的弱语义文本,即文本描述中存在常识性信息或侧重于描述视频的某一片段,缺乏视频中所包含实体的信息,模型无法理解常识性信息,导致检索的性能下降和检索结果的不匹配。
技术实现思路
1、本专利技术的目的在于针对上述现有技术的不足,提供基于指令引导gpt的文本检索视频方法、系统和设备,以解决现有技术存在大量的弱语义
2、本专利技术具体提供如下技术方案:一种基于指令引导gpt的文本检索视频方法,包括如下步骤:
3、获取多个视频及其对应的多条描述性文本;
4、将所述描述性文本输入跨模态检索模型中,通过指令引导深度学习模型gpt对描述性文本扩展,获得扩展文本,并为所述视频生成相应的字幕;
5、将扩展文本与对应的描述性文本拼接后进行编码,获得描述性文本编码特征,并对所述字幕和视频进行编码,获得字幕编码特征和视频编码特征;
6、获取描述性文本编码特征与视频编码特征间的相似度,并获取描述性文本编码特征与字幕编码特征间的相似度;
7、在所述描述性文本编码特征与非匹配字幕的相似度高于匹配字幕时,将非匹配字幕作为伪配对字幕;
8、将描述性文本编码特征与伪配对字幕的共同描述作为增强文本,并通过增强文本与伪配对视频对跨模态检索模型进行训练,获得最终的跨模态检索模型;
9、将待检索数据输入最终的跨模态检索模型中,通过输出特征向量的余弦相似性排序获得检索结果。
10、优选的,所述通过指令引导深度学习模型gpt对描述性文本扩展,获得扩展文本,并为所述视频生成相应的字幕,包括如下步骤:
11、输入一条手动设置指令,并使用该指令引导gpt对输入文本进行扩展;具体表达式为:
12、ei~g(·|ti,i)。
13、其中,g(·)为gpt模型,ti为第i个描述性文本,i为手动输入指令,ei为第i个描述性文本经gpt模型扩展后的扩展文本;
14、使用zerocap模型生成视频的字幕,并将生成的字幕与扩展文本对齐;具体表达式为:
15、ci~z(·|vi)。
16、其中,z(·)代表视频的字幕生成模型,vi代表第i个视频,ci表示第i个视频对应生成的字幕。
17、优选的,将扩展文本与对应的描述性文本拼接后进行编码,获得描述性文本编码特征,并对所述字幕和视频进行编码,获得字幕编码特征和视频编码特征,包括如下步骤:
18、将所述扩展文本和对应描述性文本拼接后送入文本编码器进行编码,并获取编码后文本特征的平均值,将编码后文本特征的平均值作为描述性文本编码特征;具体表达式为:
19、
20、其中,为第i个描述性文本编码特征,ti为第i个描述性文本,tij为第i个描述性文本对应的第j个扩展文本,t(·)为clip文本编码器,θ为clip文本编码器对应的超参数,n为扩展文本数量,为拼接;
21、将所述字幕输入文本编辑器中进行编码,获取编码后字幕特征的平均值,将编码后字幕特征的平均值作为字幕编码;具体表达式为:
22、
23、其中,为第i个视频字幕编码特征,为第i个视频对应的第j个生成字幕,t(·)为clip文本编码器,θ为其对应的超参数,描述性文本编码和视频字幕编码共用同一套超参数;
24、采用视觉编码器对视频进行编码,在最后的输出层取其第一个数据结构c1s_token表示视频编码特征;具体表达式为:
25、
26、其中,为第i个视频编码特征,f(·)为clip视频编码器,为其对应的超参数,vi为第i个视频。
27、优选的,所述获取描述性文本编码特征与视频编码特征间的相似度,并获取描述性文本编码特征与字幕编码特征间的相似度,包括如下步骤:
28、采用余弦相似度对视频编码特征和描述性文本编码特征间的相似性、以及对字幕编码特征和描述性文本编码特征间的相似性进行度量;具体表达式为:
29、
30、其中,和分别表示第i个视频编码特征,第i个描述性文本编码特征以及第i个视频对应的字幕编码特征,svt(·)表示视频与文本相似度计算函数,sct(·)表示视频字幕与文本相似度计算函数。
31、优选的,所述将通过增强文本与伪配对视频对跨模态检索模型进行训练,获得最终的跨模态检索模型,具体为:
32、ni~g(·|ei,ci)。
33、
34、其中,ni表示描述性文本编码特征和伪配对字幕间的共同描述文本,g(·)为gpt模型,ei为第i个描述性文本经gpt模型扩展后的文本,ci表示第i个视频对应生成的字幕,表示第i个编码特征,t(·)为clip文本编码器,θ为clip文本编码器对应的超参数,mi为需要编码的字幕、描述性文本或视频,svt(·)表示视频与文本相似度计算函数,τ表示温度超参数,b表示批量输入视频-文本对大小,为第j个编码特征,为第j个视频编码特征,为第i个视频编码特征,ln2v表示增强文本到视频检索损失,lv2n表示视频到增强文本检索损失,lnv表示增强文本-视频检索总损失;
35、通过所述总损失对跨模态检索模型进行优化,获得最终的跨模态检索模型。
36、优选的,所述将待检索数据输入最终的跨模态检索模型中,通过输出特征向量的余弦相似性排序获得检索结果,包括如下步骤:
37、将待检索数据输入最终的跨模态检索模型中,输出三个特征向量et、和
38、其中,et表示经过gpt扩展及取平均值操作后得到的描述性文本编码,
3本文档来自技高网...
【技术保护点】
1.一种基于指令引导GPT的文本检索视频方法,其特征在于,包括:
2.如权利要求1所述的一种基于指令引导GPT的文本检索视频方法,其特征在于,所述通过指令引导深度学习模型GPT对描述性文本扩展,获得扩展文本,并为所述视频生成相应的字幕,包括如下步骤:
3.如权利要求1所述的一种基于指令引导GPT的文本检索视频方法,其特征在于,将扩展文本与对应的描述性文本拼接后进行编码,获得描述性文本编码特征,并对所述字幕和视频进行编码,获得字幕编码特征和视频编码特征,包括如下步骤:
4.如权利要求1所述的一种基于指令引导GPT的文本检索视频方法,其特征在于,所述获取描述性文本编码特征与视频编码特征间的相似度,并获取描述性文本编码特征与字幕编码特征间的相似度,包括如下步骤:
5.如权利要求1所述的一种基于指令引导GPT的文本检索视频方法,其特征在于,所述通过增强文本与伪配对视频对跨模态检索模型进行训练,获得最终的跨模态检索模型,具体为:
6.如权利要求1所述的一种基于指令引导GPT的文本检索视频方法,其特征在于,其特征在于,所述将待检索数
7.一种基于指令引导GPT的文本检索视频系统,其特征在于,包括:
8.一种计算机设备,其特征在于,包括存储器及处理器,所述存储器中储存有程序,所述程序被所述处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述一种基于指令引导GPT的文本检索视频方法的步骤。
...【技术特征摘要】
1.一种基于指令引导gpt的文本检索视频方法,其特征在于,包括:
2.如权利要求1所述的一种基于指令引导gpt的文本检索视频方法,其特征在于,所述通过指令引导深度学习模型gpt对描述性文本扩展,获得扩展文本,并为所述视频生成相应的字幕,包括如下步骤:
3.如权利要求1所述的一种基于指令引导gpt的文本检索视频方法,其特征在于,将扩展文本与对应的描述性文本拼接后进行编码,获得描述性文本编码特征,并对所述字幕和视频进行编码,获得字幕编码特征和视频编码特征,包括如下步骤:
4.如权利要求1所述的一种基于指令引导gpt的文本检索视频方法,其特征在于,所述获取描述性文本编码特征与视频编码特征间的相似度,并获取描述性文本编码特征与字幕编码特征间的相似度,包...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。