System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 信息定位及其模型训练方法、装置、设备、介质及产品制造方法及图纸_技高网

信息定位及其模型训练方法、装置、设备、介质及产品制造方法及图纸

技术编号:42969619 阅读:10 留言:0更新日期:2024-10-15 13:12
本公开提供了信息定位及其模型训练方法、装置、设备、介质及产品,涉及计算机技术领域,尤其涉及深度学习、智能搜索、多模态内容理解等技术领域。具体实现方案为:获取训练样本,训练样本包括样本视频、样本视频对应的多个样本语句以及在样本视频中与样本语句对应的样本定位信息;根据样本视频的样本视觉特征和多个样本语句的样本文本特征确定样本视频的样本强化特征;基于样本强化特征、多个样本语句的样本文本特征以及样本定位信息,调整模型参数,得到训练后的信息定位模型。在本方案中,利用一个样本视频对应多个样本语句进行训练,可有效减少训练耗时,提高训练效率,同时兼顾一个样本视频中多个样本语句的语义信息,提高模型的特征表征能力。

【技术实现步骤摘要】

本公开涉及计算机,尤其涉及深度学习、智能搜索、多模态内容理解等,具体涉及信息定位及其模型训练方法、装置、设备、介质及产品


技术介绍

1、文本驱动的视频事件定位任务是一个标注的多模态任务,该任务的输入是一个长视频和一段文本,文本描述了视频中的一个事件,该任务的输出则是文本描述事件在长视频中的起止时间。

2、现有技术中该任务的执行大多是分别提取视觉特征和文本特征后,进行特征融合来确定对应的起止时间,但其中所提取的视觉特征大部分都是与文本无关的,导致输出的文本描述事件对应的起止时间准确度不高。


技术实现思路

1、本公开提供了一种信息定位及其模型训练方法、装置、设备、介质及产品。

2、根据本公开的第一方面,提供了一种信息定位模型的训练方法,包括以下步骤:

3、获取训练样本,该训练样本包括样本视频、样本视频对应的多个样本语句以及在样本视频中与样本语句对应的样本定位信息;

4、根据样本视频的样本视觉特征和多个样本语句的样本文本特征,确定样本视频的样本强化特征;

5、基于样本强化特征、多个样本语句的样本文本特征以及样本定位信息,调整模型参数,得到训练后的信息定位模型。

6、根据本公开的第二方面,提供了一种信息定位方法,包括以下步骤:

7、将接收到的视频数据和定位语句输入如第一方面提供的信息定位模型,得到在视频数据中与定位语句对应的目标定位信息。

8、根据本公开的第三方面,提供了一种信息定位模型的训练装置,包括样本获取模块、特征确定模块和参数调整模块,其中:

9、样本获取模块被配置为,获取训练样本,该训练样本包括样本视频、样本视频对应的多个样本语句以及在样本视频中与样本语句对应的样本定位信息;

10、特征确定模块被配置为,根据样本视频的样本视觉特征和多个样本语句的样本文本特征,确定样本视频的样本强化特征;

11、参数调整模块被配置为,响应于数据摘要与目标摘要相符,标记云终端资源的状态为可释放。

12、根据本公开的第四方面,提供了一种信息定位装置,包括目标定位模块,该目标定位模块被配置为,将接收到的视频数据和定位语句输入如第一方面提供的信息定位模型,得到在视频数据中与定位语句对应的目标定位信息。

13、根据本公开的第五方面,提供了一种电子设备,包括:

14、至少一个处理器;以及

15、与至少一个处理器通信连接的存储器;其中,

16、存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行第一方面或第二方面提供的方法。

17、根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面或第二方面提供的方法。

18、根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现根据第一方面或第二方面提供的方法。

19、根据本公开实施例提供的信息定位模型的训练方法,利用一个样本视频对应多个样本语句的训练数据对进行模型训练,可以大幅减少训练耗时,提高训练效率;在模型训练过程中,利用多个样本语句的样本文本特征对样本视频的样本视觉特征进行强化,得到样本强化特征,提高样本视觉特征与多个样本语句的样本文本特征的关联性;利用该样本强化特征和多个样本语句的样本文本特征及其样本定位信息调整模型参数,可以有效提高模型的特征表征能力。

20、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种信息定位模型的训练方法,包括:

2.根据权利要求1所述的方法,其中,所述根据所述样本视频的样本视觉特征、所述多个样本语句的样本文本特征,确定所述样本视频的样本强化特征,包括:

3.根据权利要求2所述的方法,其中,所述根据所述样本视频的样本视觉特征和所述多个样本语句对应的样本文本特征,确定第一维度的样本融合特征,包括:

4.根据权利要求2所述的方法,其中,所述根据所述样本融合特征和所述样本视频的样本视觉特征,确定所述样本视频的样本强化特征,包括:

5.根据权利要求1所述的方法,其中,所述基于所述样本强化特征、所述多个样本语句的所述样本文本特征以及所述样本定位信息,调整模型参数,得到训练后的信息定位模型,包括:

6.一种信息定位方法,包括:

7.根据权利要求6所述的方法,还包括:

8.根据权利要求7所述的方法,其中,所述根据所述同义语句和所述视频数据,更新所述目标定位信息,包括:

9.一种信息定位模型的训练装置,包括:

10.一种信息定位装置,包括:

11.一种电子设备,包括:

12.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。

13.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。

...

【技术特征摘要】

1.一种信息定位模型的训练方法,包括:

2.根据权利要求1所述的方法,其中,所述根据所述样本视频的样本视觉特征、所述多个样本语句的样本文本特征,确定所述样本视频的样本强化特征,包括:

3.根据权利要求2所述的方法,其中,所述根据所述样本视频的样本视觉特征和所述多个样本语句对应的样本文本特征,确定第一维度的样本融合特征,包括:

4.根据权利要求2所述的方法,其中,所述根据所述样本融合特征和所述样本视频的样本视觉特征,确定所述样本视频的样本强化特征,包括:

5.根据权利要求1所述的方法,其中,所述基于所述样本强化特征、所述多个样本语句的所述样本文本特征以及所述样本定位信息,调整模型参数,得到训...

【专利技术属性】
技术研发人员:刘鲲者文明程岩刘鑫辰
申请(专利权)人:北京京东远升科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1