System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及视频检索,尤其涉及一种基于图文匹配的视频片段检索方法、装置、设备及介质。
技术介绍
1、视频片段检索任务是指给定一段文本和一段视频,要定位视频中符合文本的区间。在金融交易监测中使用基于文本的视频片段检索方法能有效加快分析和审核交易的效率。例如可以通过描述性文本查询来检索与特定交易活动相关的视频片段,以便进行风险评估。
2、现有的单阶段方法通常在目标检测任务上表现较差,视频片段定位上准确性低。此外,单阶段方法通常较少关注文本描述与视频内容之间的语义关联,因此在将文本与视频帧匹配时,匹配结果准确性低。
3、因此,如何提高视频片段检索准确性成为目前亟待解决的技术问题。
技术实现思路
1、本申请提供了一种基于图文匹配的视频片段检索方法、装置、设备及介质,旨在提高视频片段检索准确性。
2、第一方面,本申请提供一种基于图文匹配的视频片段检索方法,所述基于图文匹配的视频片段检索方法包括以下步骤:
3、获取待检索视频数据以及检索文本;
4、基于视频处理算法,对所述待检索视频数据进行切分处理,获得至少一个视频块;
5、基于特征编码模型,分别对所述检索文本以及各所述视频块进行编码处理,获得所述检索文本对应的第一文本特征以及各所述视频块对应的第一视频特征;
6、基于多头多尺度检测算法,对各所述视频块对应的第一视频特征进行检索,输出至少一个与所述第一文本特征相匹配的视频片段区间;
7、基于对比学习算法
8、第二方面,本申请还提供一种基于图文匹配的视频片段检索装置,所述基于图文匹配的视频片段检索装置包括:
9、数据获取模块,用于获取待检索视频数据以及检索文本;
10、视频处理模块,用于基于视频处理算法,对所述待检索视频数据进行切分处理,获得至少一个视频块;
11、特征编码模块,用于基于特征编码模型,分别对所述检索文本以及各所述视频块进行编码处理,获得所述检索文本对应的第一文本特征以及各所述视频块对应的第一视频特征;
12、多头检测模块,用于基于多头多尺度检测算法,对各所述视频块对应的第一视频特征进行检索,输出至少一个与所述第一文本特征相匹配的视频片段区间;
13、视频片段检索模块,用于基于对比学习算法,计算所述视频片段区间内至少一个所述视频块对应的第一视频特征与第一文本特征的特征相似度,确定所述特征相似度最大的所述视频块为目标视频片段。
14、第三方面,本申请还提供一种计算机设备,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上述的基于图文匹配的视频片段检索方法的步骤。
15、第四方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上述的基于图文匹配的视频片段检索方法的步骤。
16、本申请提供一种基于图文匹配的视频片段检索方法、装置、计算机设备及存储介质,本申请方法通过将视频数据切分成多个视频块并分别提取特征,增强了对视频内容的细粒度理解,从而提高了检索的准确性。利用特征编码模型对检索文本和视频块进行编码处理,加深了文本描述与视频内容之间的语义关联,从而提升匹配的准确性。通过多头多尺度检测算法对视频块进行检索,可以多维度地评估视频块与文本的匹配度,提高了匹配的准确性。通过对比学习算法计算视频块与文本的特征相似度,并选择相似度最高的视频块作为目标视频片段,能够确保最终检索结果的精确度,从而显著提升了视频片段检索的准确性和效率。
本文档来自技高网...【技术保护点】
1.一种基于图文匹配的视频片段检索方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于图文匹配的视频片段检索方法,其特征在于,所述基于视频处理算法,对所述待检索视频数据进行切分处理,获得至少一个视频块之后,还包括:
3.根据权利要求1所述的基于图文匹配的视频片段检索方法,其特征在于,所述基于多头多尺度检测算法,对各所述视频块对应的第一视频特征进行检索,输出至少一个与所述第一文本特征相匹配的视频片段区间之前,还包括:
4.根据权利要求1所述的基于图文匹配的视频片段检索方法,其特征在于,所述基于对比学习算法,计算所述视频片段区间内至少一个所述视频块对应的第一视频特征与第一文本特征的特征相似度,确定所述特征相似度最大的所述视频块为目标视频片段,包括:
5.根据权利要求4所述的基于图文匹配的视频片段检索方法,其特征在于,所述基于特征编码优化算法,对所述第一视频特征和所述第一文本特征进行交叉注意力计算,获得第一模型损失,包括:
6.根据权利要求4所述的基于图文匹配的视频片段检索方法,其特征在于,所述基于所述多头多尺度检测
7.根据权利要求4所述的基于图文匹配的视频片段检索方法,其特征在于,所述基于所述第一模型损失和所述第二模型损失,计算加权损失函数的最优解,包括:
8.一种基于图文匹配的视频片段检索装置,其特征在于,所述基于图文匹配的视频片段检索装置包括:
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至7中任一项所述的基于图文匹配的视频片段检索方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的基于图文匹配的视频片段检索方法的步骤。
...【技术特征摘要】
1.一种基于图文匹配的视频片段检索方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于图文匹配的视频片段检索方法,其特征在于,所述基于视频处理算法,对所述待检索视频数据进行切分处理,获得至少一个视频块之后,还包括:
3.根据权利要求1所述的基于图文匹配的视频片段检索方法,其特征在于,所述基于多头多尺度检测算法,对各所述视频块对应的第一视频特征进行检索,输出至少一个与所述第一文本特征相匹配的视频片段区间之前,还包括:
4.根据权利要求1所述的基于图文匹配的视频片段检索方法,其特征在于,所述基于对比学习算法,计算所述视频片段区间内至少一个所述视频块对应的第一视频特征与第一文本特征的特征相似度,确定所述特征相似度最大的所述视频块为目标视频片段,包括:
5.根据权利要求4所述的基于图文匹配的视频片段检索方法,其特征在于,所述基于特征编码优化算法,对所述第一视频特征和所述第一文本特征进行交叉注意力计算,获得第一模型损失,包括:
【专利技术属性】
技术研发人员:唐小初,连丹苗,舒畅,陈又新,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。