自动视频生成方法、装置及电子设备和芯片系统制造方法及图纸

技术编号:34441745 阅读:18 留言:0更新日期:2022-08-06 16:32
本发明专利技术提供一种视频生成方法,其特征在于,包括:获取视频流,并且在所述视频流中确定多个检测帧;对每一检测帧进行多对象检测,得到多个检测框;对所述多个检测框进行跟踪匹配,得到对应于检测对象的彼此关联的检测框数据;对彼此关联的检测框进行特征识别,得到表征检测对象的目标键值及相应的视频数据;利用所述目标键值和所述视频数据,生成与特定识别对象对应的视频。对象对应的视频。对象对应的视频。

【技术实现步骤摘要】
自动视频生成方法、装置及电子设备和芯片系统


[0001]本申请涉及视频跟踪
,具体而言,涉及一种自动视频生成方法、装置及电子设备和芯片系统。

技术介绍

[0002]随着全民健身的理念日益普及,人们参加体育活动的热情日益高涨。人们在参加体育活动享受运动带来的乐趣的同时,也希望将自己在活动过程中的精彩瞬间记录下来,从而上传到社交网站与朋友分享,或者保存为美好的回忆。
[0003]事实上,不止参加体育活动,很多场景下都有生成个性化视频的需求,例如参观旅游景区、博物馆、展馆等场所的活动或视频监控领域。基于旅游景区、博物馆、展馆等安装的视频采集设备会记录每个用户的视频信息,甚至还能记录部分音频信息。如果能将采集到的视频按照用户、家庭或团队等组织进行自动记录、剪辑、选取背景音乐、转场渲染并最终提供给用户生成好的视频内容,就可以大大方便用户记录参观的美好内容,同时可以方便地携带。
[0004]传统的视频生产方法,常见的有两种:一种是通过人工来识别并进行打点标注,然后将视频素材和标注信息送入视频生产模块中渲染出所需的视频结果,这种方法需要多人多天的工作量才能完成识别,生产效率低,成本高。
[0005]另一种结合深度学习的自动视频生成的方法,需要先通过摄像头拍摄画面,再依赖人脸识别技术,通过识别人脸,并提取对应人脸所在视频片段完成最终合成。然而,这种视频采集方式可以应用的场景有限,特别是在不能通过人脸识别提取人脸素材的使用场景下,难以自动生成视频。
[0006]特别是对于例如在用户带着安全帽、护目镜滑雪时,在用户带头盔开卡丁车时,在用户高速漂流时,在用户参与马拉松赛跑时,不光人脸很难捕捉,常见的字符识别对号牌等识别的正确率也比较低,特别是光照不足、存在阴影、出现褶皱以及遮挡等等缘故,现在还没有特别好的办法提高这些场景下的识别效果。如果为了降低识别错误率,将识别正确率阈值设置得过高,常常无法检索到任何结果,降低了检出率,因此检出率和正确率常常是一对矛盾,难以同时满足。
[0007]这里,检出率的计算方法是在例如100个参与者中检出50个参与者,则检出率是50/100=50%。而正确率是指在检出结果中识别结果正确的为30人,则正确率是30/100=30%。
[0008]因此,在这样的识别条件下,如何能够在提高检出率的同时,提高识别正确率,自动捕捉并检索得到该参与者的视频,这是现有技术需要解决的难题。

技术实现思路

[0009]本申请旨在提供一种视频生成方法,可自动检出并识别出现在摄像头布设场景中的每一个检测对象的“键值

视频帧数据”,以便根据客户需求生成特定的特定检测对象的
个性化短视频,同时满足检出率要求和正确率要求。
[0010]根据本专利技术的视频生成方法,其包括:获取视频流,并且在所述视频流中确定多个检测帧;对每一检测帧进行多对象检测,得到多个检测框;对所述多个检测框进行跟踪匹配,得到对应于检测对象的彼此关联的检测框数据;对彼此关联的检测框进行特征识别,得到表征检测对象的目标键值及相应的视频数据;以及利用所述目标键值和所述视频数据,生成与特定识别对象对应的视频。
[0011]根据本专利技术的一实施例,所述“对每一检测帧进行多对象检测,得到多个检测框”包括:对每一检测帧进行多对象检测,得到分别对应于多个检测对象的多个第一数据序列,每个第一数据序列包括与检测对象的至少一个识别目标分别对应的至少一个检测框,所述至少一个检测框包括第一检测框。
[0012]根据本专利技术的一实施例,所述“对所述多个检测框进行跟踪匹配,得到对应于检测对象的彼此关联的检测框数据”,包括:对检测帧的每个第一数据序列的所述第一检测框进行跟踪匹配,得到多个第二数据序列,每一个第二数据序列包括彼此关联的至少第一检测框数据。
[0013]根据本专利技术的一实施例,所述“对彼此关联的检测框进行特征识别,得到表征检测对象的目标键值及相应的视频数据”,包括:针对每一个第二数据序列中的检测框数据进行特征识别,并且通过优势判断规则,得到表征检测对象的目标键值,生成第三数据序列,每一个第三数据序列包括所述目标键值和对应的视频数据。
[0014]根据本专利技术的一实施例,所述第一数据序列包括:帧号、第一检测框序号、以及至少第一检测框的四个角的位置数据和类别。
[0015]根据本专利技术的一实施例,所述第二数据序列包括帧号和识别对象序号,以便根据帧号和识别对象序号去引用相应的第一数据序列,获得帧数据。
[0016]根据本专利技术的一实施例,所述第三数据序列包括表征识别对象特征的多个键值、以及与之对应的视频流的开始位置和视频流的结束位置。
[0017]根据本专利技术的一实施例,所述“对每一检测帧进行多对象检测”,包括:利用深度神经网络对每一检测帧进行多对象检测。
[0018]根据本专利技术的一实施例,所述“对检测帧的每个第一数据序列的所述第一检测框进行跟踪匹配”,包括:利用卡尔曼滤波得到当前检测帧的所述第一检测框在后一检测帧中的预测位置;基于所述预测位置对所述后一检测帧的所有第一检测框进行过滤;以及将过滤得到的所述后一检测帧的第一检测框与所述当前检测帧的所述第一检测框进行匹配,从而得到所述彼此关联的第一检测框数据。
[0019]根据本专利技术的一实施例,所述卡尔曼滤波的状态向量包括跳帧参数,用于表征检测帧之间的间隔帧数量。
[0020]根据本专利技术的一实施例,若所述检测对象为人物对象,则所述第一检测框为人体对象框;若所述检测对象为车辆对象,则所述第一检测框为车体对象框。
[0021]根据本专利技术的一实施例,所述“对检测帧的每个第一数据序列的所述第一检测框进行跟踪匹配,得到多个第二数据序列”包括:将相邻帧中运动方向、距离和第一检测框的外形尺寸落入预定范围内的第一检测框关联起来,由此得到多个第二数据序列。
[0022]根据本专利技术的一实施例,所述至少一个检测框还包括:对应检测对象的其他识别
目标的其他检测框,所述其他检测框位于所述第一检测框范围内。
[0023]根据本专利技术的一实施例,所述其他检测框包括字符框或编码框。
[0024]根据本专利技术的一实施例,所述第一检测框为人体对象框,并且所述“针对每一个第二数据序列中的检测框数据进行特征识别,并且通过优势判断规则,得到表征检测对象的目标键值,生成第三数据序列”包括:利用深度神经网络识别第一检测框的局部特征ID;和将图像质量评分排序中前K个局部特征ID设定为所述目标键值。
[0025]根据本专利技术的一实施例,所述局部特征ID为头肩ID。
[0026]根据本专利技术的一实施例,所述检测框还包括字符框或编码框,“针对每一个第二数据序列中的检测框数据进行特征识别,并且通过优势判断规则,得到表征检测对象的目标键值,生成第三数据序列”包括:针对每一个第二数据序列中的字符框或编码框数据进行特征识别,并且通过优势判断规则,将置信度大于阈值的识别结果通过投票机制确定的字符序列作为表征检测对象的目标键值,生成第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频生成方法,其特征在于,包括:获取视频流,并且在所述视频流中确定多个检测帧;对每一检测帧进行多对象检测,得到多个检测框;对所述多个检测框进行跟踪匹配,得到对应于检测对象的彼此关联的检测框数据;对彼此关联的检测框进行特征识别,得到表征检测对象的目标键值及相应的视频数据;和利用所述目标键值和所述视频数据,生成与特定识别对象对应的视频。2.根据权利要求1所述的视频生成方法,其中,所述“对每一检测帧进行多对象检测,得到多个检测框”包括:对每一检测帧进行多对象检测,得到分别对应于多个检测对象的多个第一数据序列,每个第一数据序列包括与检测对象的至少一个识别目标分别对应的至少一个检测框,所述至少一个检测框包括第一检测框。3.根据权利要求2所述的视频生成方法,其中,所述“对所述多个检测框进行跟踪匹配,得到对应于检测对象的彼此关联的检测框数据”包括:对检测帧的每个第一数据序列的所述第一检测框进行跟踪匹配,得到多个第二数据序列,每一个第二数据序列包括彼此关联的至少第一检测框数据。4.根据权利要求3所述的视频生成方法,其中,所述“对彼此关联的检测框进行特征识别,得到表征检测对象的目标键值及相应的视频数据”包括:针对每一个第二数据序列中的检测框数据进行特征识别,并且通过优势判断规则,得到表征检测对象的目标键值,生成第三数据序列,每一个第三数据序列包括所述目标键值和对应的视频数据。5.根据权利要求4所述的视频生成方法,其中,所述第一数据序列包括:帧号、第一检测框序号、以及至少第一检测框的四个角的位置数据和类别。6.根据权利要求4 所述的视频生成方法,其中,所述第二数据序列包括帧号和识别对象序号,以便根据帧号和识别对象序号去引用相应的第一数据序列,获得帧数据。7.根据权利要求4 所述的视频生成方法,其中,所述第三数据序列包括表征识别对象特征的多个键值、以及与之对应的视频流的开始位置和视频流的结束位置。8.根据权利要求2所述的视频生成方法,其中,所述“对每一检测帧进行多对象检测”包括:利用深度神经网络对每一检测帧进行多对象检测。9.根据权利要求3所述的视频生成方法,其中,所述“对检测帧的每个第一数据序列的所述第一检测框进行跟踪匹配”包括:利用卡尔曼滤波得到当前检测帧的所述第一检测框在后一检测帧中的预测位置;基于所述预测位置对所述后一检测帧的所有第一检测框进行过滤;将过滤得到的所述后一检测帧的第一检测框与所述当前检测帧的所述第一检测框进行匹配,从而得到所述彼此关联的第一检测框数据。10.根据权利要求9所述的视频生成方法,其中,所述卡尔曼滤波的状态向量包括跳帧参数,用于表征检测帧之间的间隔帧数量。11.根据权利要求4所述的视频生成方法,其中,
若所述检测对象为人物对象,则所述第一检测框为人体对象框;若所述检测对象为车辆对象,则所述第一检测框为车体对象框。12.根据权利要求3所述的视频生成方法,其中,所述“对检测帧的每个第一数据序列的所述第一检测框进行跟踪匹配,得到多个第二数据序列”包括:将相邻帧中运动方向、距离和第一检测框的外形尺寸落入预定范围内的第一检测框关联起来,由此得到多个第二数据序列。13.根据权利要求4所述的视频生成方法,其中,所述至少一个检测框还包括:对应检测对象的其他识别目标的其他检测框,所述其他检测框位于所述第一检测框范围内。14.根据权利要求13所述的视频生成...

【专利技术属性】
技术研发人员:余刚贾艳军李广群
申请(专利权)人:北京凯利时科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1