标签融合方法及装置、计算机可读存储介质、终端制造方法及图纸

技术编号:35469186 阅读:29 留言:0更新日期:2022-11-05 16:14
一种标签融合方法及装置、计算机可读存储介质、终端,所述方法包括:确定一帧或多帧已标帧,并根据已标帧和相邻的未标帧之间的光流数据,确定第一预测帧,以及确定所述未标帧中各个像素点的第一光流预测标签;计算所述未标帧中的每个像素点与第一预测帧中相同位置的像素点之间的第一欧式距离,以及计算该像素点的第一语义预测标签与第一光流预测标签之间的第二欧式距离;基于第一预设权重比例,根据第一欧式距离与第二欧式距离确定第一融合欧式距离;根据第一融合欧式距离与第一预设阈值的比较结果,确定第一融合标签。上述方案可以融合光流信息和语义信息,自动获得准确、高质量的融合标签。的融合标签。的融合标签。

【技术实现步骤摘要】
标签融合方法及装置、计算机可读存储介质、终端


[0001]本专利技术涉及计算机视觉
,尤其涉及一种标签融合方法及装置、计算机可读存储介质、终端。

技术介绍

[0002]在计算机视觉尤其是图像分割领域,进行深度机器学习时,往往需要很多有标签的样本数据进行模型训练和优化,然而过去往往采用人工标注方法获得有标签的数据,成本高、效率低下、无法获得足够数量的带标签样本数据,从而严重限制了模型的性能。为解决这一问题,人们开始探索如何让机器取代人工,实现标签确定与标注的自动化。
[0003]在现有技术中,对图像或视频帧进行自动标注一般有以下几种实现方式:
[0004](1)基于光流的标签传播技术,即利用视频流中的相邻视频帧之间的运动关联性/光流信息,将已标帧的标签自动向前或向后传播到相邻的未标帧,得到相邻的未标帧的标签。然而,此种技术的健壮性较弱,因为长时间的运动估计仍然是一项很困难的工作,根据光流信息/运动信息进行标签传播的过程中,随着传播帧数或时长的增加,估计得到的光流信息及标签传播的准确度下降很快,容易产生累计偏差与噪声,从而无法保证传播标签的质量、标注的准确性不足。
[0005](2)基于语义的自动标注技术,即通过将未标帧输入训练好的语义预测模型,该语义预测模型直接输出标签信息。然而,由于当前仍缺乏较完美的语义预测模型,因此单单采用现有的语义预测模型去预测标签,同样难以获得准确、高质量的标签。
[0006](3)结合光流和语义信息的标签融合技术:现有的融合方案采用一个有监督训练后的光流模型预测得到光流标签,并与另一种模型预测得到的标签融合。然而,有监督方法对光流模型进行训练需要大量带标签的样本数据,训练成本很高,且现有技术中采用的光流模型的结构十分复杂,还可能导致计算开销的增大;此外,现有的融合策略往往过于简单、健壮性和通用性较低;再者,现有技术并未解决标签传播和融合过程中产生的噪声问题,因此得到的融合标签仍不够准确。

技术实现思路

[0007]本专利技术实施例实现的目的之一是提供一种标签融合方法,本专利技术可以融合光流信息和语义信息,自动获得准确、高质量的融合标签。
[0008]为实现上述目的,本专利技术实施例提供一种标签融合方法,包括以下步骤:确定一帧或多帧已标帧,并根据已标帧和相邻的未标帧之间的光流数据,确定在所述未标帧时刻的第一预测帧,以及确定所述未标帧中各个像素点的第一光流预测标签;对于所述未标帧中的每个像素点,计算该像素点与所述第一预测帧中相同位置的像素点之间的第一欧式距离,以及计算该像素点的第一语义预测标签与第一光流预测标签之间的第二欧式距离;基于第一预设权重比例,根据第一欧式距离与第二欧式距离确定第一融合欧式距离;比较所述第一融合欧式距离与第一预设阈值,并根据比较结果,确定将所述第一光流预测标签或
所述第一语义预测标签作为该像素点的第一融合标签。
[0009]可选的,所述确定一帧或多帧已标帧包括:确定一帧或多帧图像的标签并进行标注,以得到所述已标帧。
[0010]可选的,所述光流数据是将所述已标帧和相邻的未标帧输入光流预测模型后,所述光流预测模型输出的结果。
[0011]可选的,在根据已标帧和相邻的未标帧之间的光流数据,确定在所述未标帧时刻的第一预测帧,以及确定所述未标帧中各个像素点的第一光流预测标签之前,所述方法还包括:采用多对相邻的未标帧作为样本数据输入第一预设模型;针对每一对相邻的未标帧,预测该对相邻的未标帧之间的光流数据以及其中任一帧的第二预测帧,并确定所述第二预测帧与所属的未标帧中属于相同位置的各对像素点的第三欧式距离累积值;对各对相邻的未标帧的第三欧式距离累积值求和,作为第一损失函数的函数值;最小化第一损失函数的函数值,以对所述第一预设模型进行训练,直至第一损失函数收敛,停止迭代并得到所述光流预测模型。
[0012]可选的,所述第一预设模型选自以下任一项:交通流ARFlow模型、递归全对场变换RAFT模型。
[0013]可选的,所述未标帧中的每个像素点的第一语义预测标签是将所述未标帧输入语义预测模型后,所述语义预测模型的输出结果。
[0014]可选的,在对于所述未标帧中的每个像素点,计算该像素点的第一语义预测标签与第一光流预测标签之间的第二欧式距离之前,所述方法还包括:采用多帧已标帧作为样本数据输入第二预设模型;预测每帧已标帧中各个像素点的第二语义预测标签,并确定所述第二语义预测标签与已标注的实际标签之间的交叉熵;对各帧已标帧中各个像素点的第二语义预测标签与实际标签之间的交叉熵求和,作为第二损失函数的函数值;最小化第二损失函数的函数值,以对所述第二预设模型进行训练,直至第二损失函数收敛,停止迭代并得到所述语义预测模型。
[0015]可选的,所述第二预设模型选自以下任一项:高分辨率网络HRNet模型、级联网络CascadePSP模型、深度卷积神经网络DeepLab模型。
[0016]可选的,所述第一欧式距离的权重值大于所述第二欧式距离的权重值;比较所述第一融合欧式距离与第一预设阈值,并根据比较结果,确定将所述第一光流预测标签或所述第一语义预测标签作为该像素点的第一融合标签包括:如果所述第一融合欧式距离小于等于第一预设阈值,则确定将所述第一光流预测标签作为该像素点的第一融合标签;如果所述第一融合欧式距离大于第一预设阈值,则确定将所述第一语义预测标签作为该像素点的第一融合标签。
[0017]可选的,在得到所述未标帧中每个像素点的第一融合标签之后,所述方法还包括:采用去噪模型,对所述未标帧中各个像素点的第一融合标签进行去噪处理。
[0018]可选的,在采用去噪模型,对所述未标帧中各个像素点的第一融合标签进行去噪处理之前,所述方法还包括:基于所述已标帧和相邻的未标帧之间的光流数据、所述未标帧中各个像素点的第一融合标签以及所述已标帧中各个像素点的第三语义预测标签确定所述已标帧中各个像素点的第二融合标签;采用多帧所述已标帧中各个像素点的第二融合标签作为样本数据输入第三预设模型;预测每帧已标帧中各个像素点的去噪后第二融合标
签,并确定所述去噪后第二融合标签与已标注的实际标签之间的交叉熵;对各帧已标帧中各个像素点的去噪后第二融合标签与已标注的实际标签之间的交叉熵求和,作为第三损失函数的函数值;最小化第三损失函数的函数值,以对所述第三预设模型进行训练,直至第三损失函数收敛,停止迭代并得到所述去噪模型。
[0019]可选的,基于所述已标帧和相邻的未标帧之间的光流数据、所述未标帧中各个像素点的第一融合标签以及所述已标帧中各个像素点的第三语义预测标签确定所述已标帧中各个像素点的第二融合标签包括:根据所述已标帧和相邻的未标帧之间的光流数据,确定在所述已标帧时刻的第三预测帧,以及根据所述光流数据和所述未标帧中各个像素点的第一融合标签,确定所述已标帧中各个像素点的第二光流预测标签;对于所述已标帧中的每个像素点,计算该像素点与所述第三预测帧中相同位置的像素点之间的第四欧式距离,以及计算该像素点的第三语义预测标签与本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种标签融合方法,其特征在于,包括:确定一帧或多帧已标帧,并根据已标帧和相邻的未标帧之间的光流数据,确定在所述未标帧时刻的第一预测帧,以及确定所述未标帧中各个像素点的第一光流预测标签;对于所述未标帧中的每个像素点,计算该像素点与所述第一预测帧中相同位置的像素点之间的第一欧式距离,以及计算该像素点的第一语义预测标签与第一光流预测标签之间的第二欧式距离;基于第一预设权重比例,根据第一欧式距离与第二欧式距离确定第一融合欧式距离;比较所述第一融合欧式距离与第一预设阈值,并根据比较结果,确定将所述第一光流预测标签或所述第一语义预测标签作为该像素点的第一融合标签。2.根据权利要求1所述的方法,其特征在于,所述确定一帧或多帧已标帧包括:确定一帧或多帧图像的标签并进行标注,以得到所述已标帧。3.根据权利要求1所述的方法,其特征在于,所述光流数据是将所述已标帧和相邻的未标帧输入光流预测模型后,所述光流预测模型输出的结果。4.根据权利要求3所述的方法,其特征在于,在根据已标帧和相邻的未标帧之间的光流数据,确定在所述未标帧时刻的第一预测帧,以及确定所述未标帧中各个像素点的第一光流预测标签之前,所述方法还包括:采用多对相邻的未标帧作为样本数据输入第一预设模型;针对每一对相邻的未标帧,预测该对相邻的未标帧之间的光流数据以及其中任一帧的第二预测帧,并确定所述第二预测帧与所属的未标帧中属于相同位置的各对像素点的第三欧式距离累积值;对各对相邻的未标帧的第三欧式距离累积值求和,作为第一损失函数的函数值;最小化第一损失函数的函数值,以对所述第一预设模型进行训练,直至第一损失函数收敛,停止迭代并得到所述光流预测模型。5.根据权利要求4所述的方法,其特征在于,所述第一预设模型选自以下任一项:交通流ARFlow模型、递归全对场变换RAFT模型。6.根据权利要求1所述的方法,其特征在于,所述未标帧中的每个像素点的第一语义预测标签是将所述未标帧输入语义预测模型后,所述语义预测模型的输出结果。7.根据权利要求6所述的方法,其特征在于,在对于所述未标帧中的每个像素点,计算该像素点的第一语义预测标签与第一光流预测标签之间的第二欧式距离之前,所述方法还包括:采用多帧已标帧作为样本数据输入第二预设模型;预测每帧已标帧中各个像素点的第二语义预测标签,并确定所述第二语义预测标签与已标注的实际标签之间的交叉熵;对各帧已标帧中各个像素点的第二语义预测标签与实际标签之间的交叉熵求和,作为第二损失函数的函数值;最小化第二损失函数的函数值,以对所述第二预设模型进行训练,直至第二损失函数收敛,停止迭代并得到所述语义预测模型。8.根据权利要求7所述的方法,其特征在于,所述第二预设模型选自以下任一项:高分辨率网络HRNet模型、级联网络CascadePSP模型、深度卷积神经网络DeepLab模型。
9.根据权利要求1所述的方法,其特征在于,所述第一欧式距离的权重值大于所述第二欧式距离的权重值;比较所述第一融合欧式距离与第一预设阈值,并根据比较结果,确定将所述第一光流预测标签或所述第一语义预测标签作为该像素点的第一融合标签包括:如果所述第一融合欧式距离小于等于第一预设阈值,则确定将所述第一光流预测标签作为该像素点的第一融合标签;如果所述第一融合欧式距离大于第一预设阈值,则确定将所述第一语义预测标签作为该像素点的第一...

【专利技术属性】
技术研发人员:黄超姚为龙李文举
申请(专利权)人:上海仙途智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1