模型训练、视频处理方法,装置,设备以及存储介质制造方法及图纸

技术编号:30766630 阅读:28 留言:0更新日期:2021-11-10 12:27
本公开提供了模型训练、视频处理方法,装置,设备以及存储介质,涉及人工智能领域,具体涉及计算机视觉和深度学习技术领域,具体可用于智慧城市和智能交通场景下。具体实现方案为:从样本视频集合中抽取出第一视频片段、第二视频片段以及第三视频片段,第一视频片段与第二视频片段外观相似,第二视频片段与第三视频片段播放速度相同;利用目标模型分别提取第一视频片段、第二视频片段以及第三视频片段的特征,得到第一特征、第二特征以及第三特征;根据第一特征与第二特征之间的第一距离、第二特征和第三特征之间的第二距离,确定损失函数;根据损失函数,训练目标模型。本实现方式可以提高提取的特征的质量,提升了下游任务的性能。能。能。

【技术实现步骤摘要】
模型训练、视频处理方法,装置,设备以及存储介质


[0001]本公开涉及人工智能领域,具体涉及计算机视觉和深度学习
,尤其涉及模型训练、视频处理方法,装置,设备以及存储介质,具体可用于智慧城市和智能交通场景下。

技术介绍

[0002]视频表征学习,即一种帮助系统自动地从原始视频中学习具有判别能力的特征的技术。随着智能手机的兴起,录制视频变得前所未有的容易。视频分析已经成为当前最活跃的研究热点之一。然而,想要获得高质量的视频标签,需要大量的人工标注工作,需要耗费大量人力物力财力。相比之下,数百万无标签的视频可以在互联网上免费获得。因此,从无标签的视频中学习有意义的视频表征对于视频内容理解至关重要。

技术实现思路

[0003]本公开提供了一种模型训练、视频处理方法,装置,设备以及存储介质。
[0004]根据第一方面,提供了一种模型训练方法,包括:从样本视频集合中抽取出第一视频片段、第二视频片段以及第三视频片段,其中,第一视频片段与第二视频片段外观的相似度大于第一预设阈值,第二视频片段与第三视频片段播放速度相同;利用目标模型分别提取第一视频片段、第二视频片段以及第三视频片段的特征,得到第一视频片段的第一特征、第二视频片段的第二特征以及第三视频片段的第三特征;根据第一特征与第二特征之间的第一距离、第二特征和第三特征之间的第二距离,确定损失函数;根据损失函数,训练目标模型。
[0005]根据第二方面,提供了一种视频处理方法,包括:获取目标视频;利用通过如第一方面所描述的模型训练方法训练得到的目标模型提取目标视频的特征,确定目标视频的目标特征;根据目标特征,对目标视频进行处理。
[0006]根据第三方面,提供了一种模型训练装置,包括:视频片段抽取单元,被配置成从样本视频集合中抽取出第一视频片段、第二视频片段以及第三视频片段,其中,第一视频片段与第二视频片段外观的相似度大于第一预设阈值,第二视频片段与第三视频片段播放速度相同;视频特征提取单元,被配置成利用目标模型分别提取第一视频片段、第二视频片段以及第三视频片段的特征,得到第一视频片段的第一特征、第二视频片段的第二特征以及第三视频片段的第三特征;损失函数确定单元,被配置成根据第一特征与第二特征之间的第一距离、第二特征和第三特征之间的第二距离,确定损失函数;目标模型训练单元,被配置成根据损失函数,训练目标模型。
[0007]根据第四方面,提供了一种视频处理装置,包括:视频获取单元,被配置成获取目标视频;特征提取单元,被配置成利用通过如第一方面所描述的模型训练方法训练得到的目标模型提取目标视频的特征,确定目标视频的目标特征;视频处理单元,被配置成根据目标特征,对目标视频进行处理。
[0008]根据第五方面,提供了一种电子设备,包括:至少一个处理器;以及与上述至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,上述指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面所描述的方法或如第二方面所描述的方法。
[0009]根据第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,上述计算机指令用于使计算机执行如第一方面所描述的方法或如第二方面所描述的方法。
[0010]根据第七方面,一种计算机程序产品,包括计算机程序,上述计算机程序在被处理器执行时实现如第一方面所描述的方法或如第二方面所描述的方法。
[0011]根据本公开的技术可以在特征空间训练模型,从而能够保留视频的更多相关信息,提高从无标签视频数据中学习到的特征的质量,提升了下游任务的性能。
[0012]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0013]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0014]图1是本公开的一个实施例可以应用于其中的示例性系统架构图;
[0015]图2是根据本公开的模型训练方法的一个实施例的流程图;
[0016]图3是根据本公开的模型训练方法的另一个实施例的流程图;
[0017]图4是根据本公开的模型训练方法的一个实施例的示意图;
[0018]图5是根据本公开的视频处理方法的一个实施例的流程图;
[0019]图6是根据本公开的模型训练方法、视频处理方法的一个应用场景的示意图;
[0020]图7是根据本公开的模型训练装置的一个实施例的结构示意图;
[0021]图8是根据本公开的视频处理装置的一个实施例的结构示意图;
[0022]图9是用来实现本公开实施例的模型训练方法、视频处理方法的电子设备的框图。
具体实施方式
[0023]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0024]需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
[0025]图1示出了可以应用本公开的模型训练方法、视频处理方法或用于模型训练装置、视频处理装置的实施例的示例性系统架构100。
[0026]如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0027]用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如视频播放类应
用、视频处理类应用等。
[0028]终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是各种电子设备,包括但不限于智能手机、平板电脑、车载电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
[0029]服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上提供语言模型的后台服务器。后台服务器可以利用训练样本对模型进行训练,得到目标模型,并将目标模型反馈给终端设备101、102、103。
[0030]需要说明的是,服务器105可以是硬件,也可以是软件。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器10本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,包括:从样本视频集合中抽取出第一视频片段、第二视频片段以及第三视频片段,其中,所述第一视频片段与所述第二视频片段外观的相似度大于第一预设阈值,所述第二视频片段与所述第三视频片段播放速度相同;利用目标模型分别提取所述第一视频片段、所述第二视频片段以及所述第三视频片段的特征,得到所述第一视频片段的第一特征、所述第二视频片段的第二特征以及所述第三视频片段的第三特征;根据所述第一特征与所述第二特征之间的第一距离、所述第二特征和所述第三特征之间的第二距离,确定损失函数;根据所述损失函数,训练所述目标模型。2.根据权利要求1所述的方法,其中,所述从样本视频集合中抽取出第一视频片段、第二视频片段以及第三视频片段,包括:从所述样本视频集合中选取出第一样本视频和第二样本视频,所述第一样本视频和所述第二样本视频的外观相似度大于第二预设阈值;从所述第一样本视频中抽取出所述第一视频片段和所述第二视频片段;从所述第二样本视频中抽取出所述第三视频片段。3.根据权利要求2所述的方法,其中,所述从所述第一样本视频中抽取出所述第一视频片段和所述第二视频片段,包括:从所述第一样本视频中选取连续的多个视频帧;将所述多个视频帧划分为数量相同的两个视频片段,得到所述第一视频片段和所述第二视频片段。4.根据权利要求2或3所述的方法,其中,所述从所述第二样本视频中抽取出所述第三视频片段,包括:确定所述第二视频片段的每秒显示帧数;以所述每秒显示帧数对所述第二样本视频进行采样,得到所述第三视频片段。5.根据权利要求1所述的方法,其中,所述利用目标模型分别提取所述第一视频片段、所述第二视频片段以及所述第三视频片段的特征,得到所述第一视频片段的第一特征、所述第二视频片段的第二特征以及所述第三视频片段的第三特征,包括:对所述第一视频片段和所述第二视频片段进行数据增强;利用所述目标模型对数据增强后的第一视频片段、数据增强后的第二视频片段和所述第三视频片段进行特征提取,得到所述第一特征、所述第二特征和第三特征。6.根据权利要求1所述的方法,其中,所述方法还包括:根据下游任务的样本数据,对训练好的目标模型进行微调。7.一种视频处理方法,包括:获取目标视频;利用通过权利要求1

6任一项所述的模型训练方法训练得到的目标模型提取所述目标视频的特征,确定所述目标视频的目标特征;根据所述目标特征,对所述目标视频进行处理。8.一种模型训练装置,包括:
视频片段抽取单元,被配置成从样本视频集合中抽取出第一视频片段、第二视频片段以及第三视频片段,其中,所述第一视频片段与所述第二视频片段外观的相似度大于第一预设阈值,所述第二视频片段与所述第三视频片段播放速度相同;视频特征提取单元,被配置成利用目标模型分别提取所述第一视频片段...

【专利技术属性】
技术研发人员:吴文灏黄登
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1