标签融合方法及装置、计算机可读存储介质、终端制造方法及图纸

技术编号：35469186 阅读：29 留言：0更新日期：2022-11-05 16:14

一种标签融合方法及装置、计算机可读存储介质、终端，所述方法包括：确定一帧或多帧已标帧，并根据已标帧和相邻的未标帧之间的光流数据，确定第一预测帧，以及确定所述未标帧中各个像素点的第一光流预测标签；计算所述未标帧中的每个像素点与第一预测帧中相同位置的像素点之间的第一欧式距离，以及计算该像素点的第一语义预测标签与第一光流预测标签之间的第二欧式距离；基于第一预设权重比例，根据第一欧式距离与第二欧式距离确定第一融合欧式距离；根据第一融合欧式距离与第一预设阈值的比较结果，确定第一融合标签。上述方案可以融合光流信息和语义信息，自动获得准确、高质量的融合标签。的融合标签。的融合标签。

全部详细技术资料下载

【技术实现步骤摘要】
标签融合方法及装置、计算机可读存储介质、终端

[0001]本专利技术涉及计算机视觉
，尤其涉及一种标签融合方法及装置、计算机可读存储介质、终端。

技术介绍

[0002]在计算机视觉尤其是图像分割领域，进行深度机器学习时，往往需要很多有标签的样本数据进行模型训练和优化，然而过去往往采用人工标注方法获得有标签的数据，成本高、效率低下、无法获得足够数量的带标签样本数据，从而严重限制了模型的性能。为解决这一问题，人们开始探索如何让机器取代人工，实现标签确定与标注的自动化。
[0003]在现有技术中，对图像或视频帧进行自动标注一般有以下几种实现方式：
[0004](1)基于光流的标签传播技术，即利用视频流中的相邻视频帧之间的运动关联性/光流信息，将已标帧的标签自动向前或向后传播到相邻的未标帧，得到相邻的未标帧的标签。然而，此种技术的健壮性较弱，因为长时间的运动估计仍然是一项很困难的工作，根据光流信息/运动信息进行标签传播的过程中，随着传播帧数或时长的增加，估计得到的光流信息及标签传播的准确度下降很快，容易产生累计偏差与噪声，从而无法保证传播标签的质量、标注的准确性不足。
[0005](2)基于语义的自动标注技术，即通过将未标帧输入训练好的语义预测模型，该语义预测模型直接输出标签信息。然而，由于当前仍缺乏较完美的语义预测模型，因此单单采用现有的语义预测模型去预测标签，同样难以获得准确、高质量的标签。
[0006](3)结合光流和语义信息的标签融合技术：现有的融合方案采用一个有监督训练后的光流...

【技术保护点】

【技术特征摘要】
1.一种标签融合方法，其特征在于，包括：确定一帧或多帧已标帧，并根据已标帧和相邻的未标帧之间的光流数据，确定在所述未标帧时刻的第一预测帧，以及确定所述未标帧中各个像素点的第一光流预测标签；对于所述未标帧中的每个像素点，计算该像素点与所述第一预测帧中相同位置的像素点之间的第一欧式距离，以及计算该像素点的第一语义预测标签与第一光流预测标签之间的第二欧式距离；基于第一预设权重比例，根据第一欧式距离与第二欧式距离确定第一融合欧式距离；比较所述第一融合欧式距离与第一预设阈值，并根据比较结果，确定将所述第一光流预测标签或所述第一语义预测标签作为该像素点的第一融合标签。2.根据权利要求1所述的方法，其特征在于，所述确定一帧或多帧已标帧包括：确定一帧或多帧图像的标签并进行标注，以得到所述已标帧。3.根据权利要求1所述的方法，其特征在于，所述光流数据是将所述已标帧和相邻的未标帧输入光流预测模型后，所述光流预测模型输出的结果。4.根据权利要求3所述的方法，其特征在于，在根据已标帧和相邻的未标帧之间的光流数据，确定在所述未标帧时刻的第一预测帧，以及确定所述未标帧中各个像素点的第一光流预测标签之前，所述方法还包括：采用多对相邻的未标帧作为样本数据输入第一预设模型；针对每一对相邻的未标帧，预测该对相邻的未标帧之间的光流数据以及其中任一帧的第二预测帧，并确定所述第二预测帧与所属的未标帧中属于相同位置的各对像素点的第三欧式距离累积值；对各对相邻的未标帧的第三欧式距离累积值求和，作为第一损失函数的函数值；最小化第一损失函数的函数值，以对所述第一预设模型进行训练，直至第一损失函数收敛，停止迭代并得到所述光流预测模型。5.根据权利要求4所述的方法，其特征在于，所述第一预设模型选自以下任一项：交通流ARFlow模型、递归全对场变换RAFT模型。6.根据权利要求1所述的方法，其特征在于，所述未标帧中的每个像素点的第一语义预测标签是将所述未标帧输入语义预测模型后，所述语义预测模型的输出结果。7.根据权利要求6所述的方法，其特征在于，在对于所述未标帧中的每个像素点，计算该像素点的第一语义预测标签与第一光流预测标签之间的第二欧式距离之前，所述方法还包括：采用多帧已标帧作为样本数据输入第二预设模型；预测每帧已标帧中各个像素点的第二语义预测标签，并确定所述第二语义预测标签与已标注的实际标签之间的交叉熵；对各帧已标帧中各个像素点的第二语义预测标签与实际标签之间的交叉熵求和，作为第二损失函数的函数值；最小化第二损失函数的函数值，以对所述第二预设模型进行训练，直至第二损失函数收敛，停止迭代并得到所述语义预测模型。8.根据权利要求7所述的方法，其特征在于，所述第二预设模型选自以下任一项：高分辨率网络HRNet模型、级联网络CascadePSP模型、深度卷积神经网络DeepLab模型。
9.根据权利要求1所述的方法，其特征在于，所述第一欧式距离的权重值大于所述第二欧式距离的权重值；比较所述第一融合欧式距离与第一预设阈值，并根据比较结果，确定将所述第一光流预测标签或所述第一语义预测标签作为该像素点的第一融合标签包括：如果所述第一融合欧式距离小于等于第一预设阈值，则确定将所述第一光流预测标签作为该像素点的第一融合标签；如果所述第一融合欧式距离大于第一预设阈值，则确定将所述第一语义预测标签作为该像素点的第一...

【专利技术属性】
技术研发人员：黄超，姚为龙，李文举，
申请(专利权)人：上海仙途智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人