采用语义分割模型对视频进行目标分割的方法、装置制造方法及图纸

技术编号:30546934 阅读:16 留言:0更新日期:2021-10-30 13:25
本公开提供了一种采用语义分割模型对视频进行目标分割的方法、装置、设备和介质。涉及人工智能领域,具体涉及计算机视觉和深度学习技术,可用于智慧城市和智能云场景下。语义分割模型包括第一特征提取网络、第二特征提取网络、时间编码网络、特征融合网络和分割网络。方法包括:将当前视频帧和在前视频帧依次输入第一特征提取网络,得到特征图序列;将在前视频帧的目标分割信息依次输入第二特征提取网络,得到分割特征序列;将当前视频帧和在前视频帧依次输入时间编码网络,得到时间特征序列;基于特征图序列、分割特征序列和时间特征序列,采用特征融合网络获得融合特征序列;以及将融合特征序列输入分割网络,获得当前视频帧的目标分割信息。标分割信息。标分割信息。

【技术实现步骤摘要】
采用语义分割模型对视频进行目标分割的方法、装置


[0001]本公开涉及人工智能
,具体涉及计算机视觉和深度学习
,具体可用于智慧城市和智能云场景下。

技术介绍

[0002]随着计算机技术和网络技术的发展,计算机视觉得到广泛应用。例如,采用计算机视觉技术,可以用于对目标进行检测、分类和分割。通过该计算机视觉技术对视频进行目标分割,可以实现在智慧城市场景下目标对象的追踪等。

技术实现思路

[0003]本公开提供了提高目标分割精度的采用语义分割模型对视频进行目标分割的方法、装置、设备和存储介质。
[0004]根据本公开的一个方面,提供了一种采用语义分割模型对视频进行目标分割的方法,其中,语义分割模型包括第一特征提取网络、第二特征提取网络、时间编码网络、特征融合网络和分割网络;该方法包括:将当前视频帧和在前视频帧依次输入第一特征提取网络,得到特征图序列;将在前视频帧的目标分割信息依次输入第二特征提取网络,得到分割特征序列;将当前视频帧和在前视频帧依次输入时间编码网络,得到时间特征序列;基于特征图序列、分割特征序列和时间特征序列,采用特征融合网络获得融合特征序列;以及将融合特征序列输入分割网络,获得当前视频帧的目标分割信息。
[0005]根据本公开的另一方面,提供了一种采用语义分割模型对视频进行目标分割的装置,语义分割模型包括第一特征提取网络、第二特征提取网络、时间编码网络、特征融合网络和分割网络;该装置包括:特征图获得模块,用于将当前视频帧和在前视频帧依次输入第一特征提取网络,得到特征图序列;分割特征获得模块,用于将在前视频帧的目标分割信息依次输入第二特征提取网络,得到分割特征序列;时间特征获得模块,用于将当前视频帧和在前视频帧依次输入时间编码网络,得到时间特征序列;融合特征获得模块,用于基于特征图序列、分割特征序列和时间特征序列,采用特征融合网络获得融合特征序列;以及目标分割模块,用于将融合特征序列输入分割网络,获得当前视频帧的目标分割信息。
[0006]根据本公开的另一个方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开提供的采用语义分割模型对视频进行目标分割的方法。
[0007]根据本公开的另一个方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开提供的采用语义分割模型对视频进行目标分割的方法。
[0008]根据本公开的另一个方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开提供的采用语义分割模型对视频进行目标分割的
方法。
[0009]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0010]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0011]图1是根据本公开实施例的采用语义分割模型对视频进行目标分割的方法、装置的应用场景示意图;
[0012]图2是根据本公开实施例的采用语义分割模型对视频进行目标分割的方法的流程示意图;
[0013]图3是根据本公开实施例的采用语义分割模型对视频进行目标分割的方法的原理示意图;
[0014]图4是根据本公开实施例的获得当前视频帧的目标分割信息的原理示意图;
[0015]图5是根据本公开实施例的采用特征融合网络获得融合特征序列的原理示意图;
[0016]图6是根据本公开实施例的采用语义分割模型对视频进行目标分割的装置的结构框图;以及
[0017]图7是用来实施本公开实施例的采用语义分割模型对视频进行目标分割的方法的电子设备的框图。
具体实施方式
[0018]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0019]本公开提供了一种采用语义分割模型对视频进行目标分割的方法,包括特征图获得阶段、分割特征获得阶段、时间特征获得阶段、融合特征获得阶段和目标分割阶段。其中,语义分割模型包括第一特征提取网络、第二特征提取网络、时间编码网络、特征融合网络和分割网络。在特征图获得阶段中,将当前视频帧和在前视频帧依次输入第一特征提取网络,得到特征图序列。在分割特征获得阶段中,将在前视频帧的目标分割信息依次输入第二特征提取网络,得到分割特征序列。在时间特征获得阶段中,将当前视频帧和在前视频帧依次输入时间编码网络,得到时间特征序列。在融合特征获得阶段中,基于特征图序列、分割特征序列和时间特征序列,采用特征融合网络获得融合特征序列。在目标分割阶段中,将融合特征序列输入分割网络,获得当前视频帧的目标分割信息。
[0020]以下将结合图1对本公开提供的方法和装置的应用场景进行描述。
[0021]图1是根据本公开实施例的采用语义分割模型对视频进行目标分割的方法和装置的应用场景示意图。可以理解的是,该图1描述的场景仅为本公开提供的方法和装置的一种应用场景,本公开提供的方法和装置还可以应用于任意需要对视频进行目标分割的场景,本公开对此不做限定。
[0022]如图1所示,该实施例的场景100包括道路110、行驶于道路上的车辆121~123及视
频采集装置131~132。视频采集装置131~132设置于道路110的两侧。该视频采集装置131~132可以用于采集视线范围内的视频数据,以实现对道路上车辆的监控。该采集的视频数据例如可以用于作为事故判定或违规判定等的参考。
[0023]在一实施例中,如图1所示,该应用场景中还可以包括路侧基站140和智能云平台150。该视频采集装置131~132例如可以通过路侧基站140与智能云平台150通信连接,以将采集的视频数据上传至智能云平台150。该智能云平台150例如可以采用语义分割模型对视频采集装置采集的视频数据进行目标分割,以实现对目标的追踪等。其中,追踪的目标例如可以为违规车辆。
[0024]根据本公开的实施例,智能云平台例如可以采用时间

空间记忆(Spatio

Temporal Memory,STM)技术或基于距离图来对视频进行目标分割。其中,STM技术通过构建外部存储,对视频的历史帧数据进行存储,当对视频的当前帧图像进行目标分割时,通过构建键值(Key

Value)信息,对外部存储中的信息进行检索并重新整合,得到增强后的特征描述。最后基于该增强后的特征描述对当前帧图像进行目标分割。其中,基于距离图的技术,最初来源于针对视频目标分割的快速端本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种采用语义分割模型对视频进行目标分割的方法,其中,所述语义分割模型包括第一特征提取网络、第二特征提取网络、时间编码网络、特征融合网络和分割网络;所述方法包括:将当前视频帧和在前视频帧依次输入所述第一特征提取网络,得到特征图序列;将在前视频帧的目标分割信息依次输入所述第二特征提取网络,得到分割特征序列;将所述当前视频帧和在前视频帧依次输入所述时间编码网络,得到时间特征序列;基于所述特征图序列、所述分割特征序列和所述时间特征序列,采用所述特征融合网络获得融合特征序列;以及将所述融合特征序列输入所述分割网络,获得所述当前视频帧的目标分割信息。2.根据权利要求1所述的方法,其中,所述语义分割模型还包括位置编码网络;所述方法还包括:将所述当前视频帧和在前视频帧依次输入所述位置编码网络,获得位置特征序列;采用所述特征融合网络获得融合特征序列包括;将所述特征图序列、所述分割特征序列、所述时间特征序列和所述位置特征序列输入所述特征融合网络,获得在通道维度进行拼接的融合特征序列。3.根据权利要求1所述的方法,其中,所述分割网络包括编码解码子网络和分割子网络;获得所述当前视频帧的目标分割信息包括:将所述融合特征序列输入所述编码解码子网络,获得实例特征序列;以及将所述实例特征序列输入所述分割子网络,得到所述当前视频帧的目标分割信息。4.根据权利要求3所述的方法,其中,所述编码解码子网络包括编码层和解码层;所述方法还包括:将起始帧和起始帧的实际目标分割信息作为预定特征提取模型的输入,获得参考特征数据;获得实例特征序列包括:将所述融合特征序列输入所述编码层,得到编码特征序列;以及将所述编码特征序列和所述参考特征数据输入所述解码层,得到所述实例特征序列。5.根据权利要求3所述的方法,其中,所述编码解码子网络采用Transformer模型获得所述实例特征序列。6.根据权利要求1所述的方法,其中,得到时间特征序列包括:基于时间顺序,将所述当前视频帧和在前视频帧依次输入所述时间编码网络,使所述时间编码网络基于输入的各视频帧相对于起始帧的时间信息,采用正弦波编码方法得到所述各视频帧的时间特征。7.根据权利要求1所述的方法,其中,所述特征融合网络包括第一融合子网络和第二融合子网络;采用所述特征融合网络获得融合特征序列包括:将所述特征图序列和所述分割特征序列输入所述第一融合子网络,得到图像特征序列;以及将所述图像特征序列和所述时间特征序列输入所述第二融合子网络,获得在通道维度进行融合的融合特征序列。8.一种采用语义分割模型对视频进行语义分割的装置,其中,所述语义分割模型包括
第一特征提取网络、第二特征提取网络、时间编码网络、特征融合网络和分割网络;所述装置包括:特征图获得模块,用于将当前视频帧和在前视频帧依次输入所述第一特征提取网络,得到特征图序列;分割特征获得模块,用于将在前视频帧的目标分割信息依次输入所述第二特征提取网络,得到分割特征序列;时间特征获得...

【专利技术属性】
技术研发人员:张健
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1