【技术实现步骤摘要】
采用语义分割模型对视频进行目标分割的方法、装置
[0001]本公开涉及人工智能
,具体涉及计算机视觉和深度学习
,具体可用于智慧城市和智能云场景下。
技术介绍
[0002]随着计算机技术和网络技术的发展,计算机视觉得到广泛应用。例如,采用计算机视觉技术,可以用于对目标进行检测、分类和分割。通过该计算机视觉技术对视频进行目标分割,可以实现在智慧城市场景下目标对象的追踪等。
技术实现思路
[0003]本公开提供了提高目标分割精度的采用语义分割模型对视频进行目标分割的方法、装置、设备和存储介质。
[0004]根据本公开的一个方面,提供了一种采用语义分割模型对视频进行目标分割的方法,其中,语义分割模型包括第一特征提取网络、第二特征提取网络、时间编码网络、特征融合网络和分割网络;该方法包括:将当前视频帧和在前视频帧依次输入第一特征提取网络,得到特征图序列;将在前视频帧的目标分割信息依次输入第二特征提取网络,得到分割特征序列;将当前视频帧和在前视频帧依次输入时间编码网络,得到时间特征序列;基于特征图序列、分割特征序列和时间特征序列,采用特征融合网络获得融合特征序列;以及将融合特征序列输入分割网络,获得当前视频帧的目标分割信息。
[0005]根据本公开的另一方面,提供了一种采用语义分割模型对视频进行目标分割的装置,语义分割模型包括第一特征提取网络、第二特征提取网络、时间编码网络、特征融合网络和分割网络;该装置包括:特征图获得模块,用于将当前视频帧和在前视频帧依次输入第一特征提取网络,得到 ...
【技术保护点】
【技术特征摘要】
1.一种采用语义分割模型对视频进行目标分割的方法,其中,所述语义分割模型包括第一特征提取网络、第二特征提取网络、时间编码网络、特征融合网络和分割网络;所述方法包括:将当前视频帧和在前视频帧依次输入所述第一特征提取网络,得到特征图序列;将在前视频帧的目标分割信息依次输入所述第二特征提取网络,得到分割特征序列;将所述当前视频帧和在前视频帧依次输入所述时间编码网络,得到时间特征序列;基于所述特征图序列、所述分割特征序列和所述时间特征序列,采用所述特征融合网络获得融合特征序列;以及将所述融合特征序列输入所述分割网络,获得所述当前视频帧的目标分割信息。2.根据权利要求1所述的方法,其中,所述语义分割模型还包括位置编码网络;所述方法还包括:将所述当前视频帧和在前视频帧依次输入所述位置编码网络,获得位置特征序列;采用所述特征融合网络获得融合特征序列包括;将所述特征图序列、所述分割特征序列、所述时间特征序列和所述位置特征序列输入所述特征融合网络,获得在通道维度进行拼接的融合特征序列。3.根据权利要求1所述的方法,其中,所述分割网络包括编码解码子网络和分割子网络;获得所述当前视频帧的目标分割信息包括:将所述融合特征序列输入所述编码解码子网络,获得实例特征序列;以及将所述实例特征序列输入所述分割子网络,得到所述当前视频帧的目标分割信息。4.根据权利要求3所述的方法,其中,所述编码解码子网络包括编码层和解码层;所述方法还包括:将起始帧和起始帧的实际目标分割信息作为预定特征提取模型的输入,获得参考特征数据;获得实例特征序列包括:将所述融合特征序列输入所述编码层,得到编码特征序列;以及将所述编码特征序列和所述参考特征数据输入所述解码层,得到所述实例特征序列。5.根据权利要求3所述的方法,其中,所述编码解码子网络采用Transformer模型获得所述实例特征序列。6.根据权利要求1所述的方法,其中,得到时间特征序列包括:基于时间顺序,将所述当前视频帧和在前视频帧依次输入所述时间编码网络,使所述时间编码网络基于输入的各视频帧相对于起始帧的时间信息,采用正弦波编码方法得到所述各视频帧的时间特征。7.根据权利要求1所述的方法,其中,所述特征融合网络包括第一融合子网络和第二融合子网络;采用所述特征融合网络获得融合特征序列包括:将所述特征图序列和所述分割特征序列输入所述第一融合子网络,得到图像特征序列;以及将所述图像特征序列和所述时间特征序列输入所述第二融合子网络,获得在通道维度进行融合的融合特征序列。8.一种采用语义分割模型对视频进行语义分割的装置,其中,所述语义分割模型包括
第一特征提取网络、第二特征提取网络、时间编码网络、特征融合网络和分割网络;所述装置包括:特征图获得模块,用于将当前视频帧和在前视频帧依次输入所述第一特征提取网络,得到特征图序列;分割特征获得模块,用于将在前视频帧的目标分割信息依次输入所述第二特征提取网络,得到分割特征序列;时间特征获得...
【专利技术属性】
技术研发人员:张健,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。