数据筛选方法、装置、电子设备及计算机存储介质制造方法及图纸

技术编号:35489306 阅读:15 留言:0更新日期:2022-11-05 16:44
本发明专利技术实施例提供了一种数据筛选方法、装置、电子设备及计算机存储介质。通过特征提取模型提取一组车辆采集图像的高维特征。并对一组车辆采集图像的高维特征进行降维,得到所述一组车辆采集图像的低维特征。基于所述一组车辆采集图像的低维特征,计算所述一组车辆采集图像之间的相似度。从所述一组车辆采集图像中,筛选相似度小于预设相似度阈值的车辆采集图像。本发明专利技术的方案提高了数据筛选的精确度,进而提高了数据筛选的效率,便于后续模型的开发和训练。发和训练。发和训练。

【技术实现步骤摘要】
数据筛选方法、装置、电子设备及计算机存储介质


[0001]本专利技术实施例涉及计算机
,尤其涉及一种数据筛选方法、装置、电子设备及计算机存储介质。

技术介绍

[0002]为了满足自动驾驶需求,现在的车辆很多都安装了摄像头等图像获取设备。随着这些车辆驾驶里程数的递增,车辆采集的真实世界的图像数据越来越多,此时若不加以筛选直接上传至云端,既增大了车端到云端的通讯费用,也增加了云端存储费用,并且有很多数据包含的信息是相似的,对后续算法模型的开发训练无较大意义。为此,进行图像数据的筛选就十分有必要。
[0003]目前主流的图像数据筛选方法主要分为在车端、云端两侧进行数据筛选:在车端对视频数据进行抽帧处理,从而降低图像数据上传的数量。但是该方法并未利用图像本身包含的信息,随机抽样的方式会使得筛选结果不准确,筛选效果较差,影响后续的算法模型的开发和训练。在云端对图像进行清洗后进行数据筛选分为人工筛选和基于灰度图特征去重两种方式:人工筛选通过人工比较图像的相似度,然后对重叠度比较高的图像予以删除。这种方法主观性较强,且工作量大,筛选效率低,人力成本高。基于灰度图特征去重基于图像的灰度图特征计算图像的相似度,然后根据相似度找到相似图像并完成去重操作。该方法仅利用了图像的灰度信息,即图像的低层特征,所以找到的相似图像也只是在低层特征上相似,无法真实反映图像包含的内容,因此基于该方法得到的筛选结果不准确。
[0004]因此,如何提高数据筛选的准确度成为亟待解决的技术问题。

技术实现思路

[0005]有鉴于此,本专利技术实施例提供一种数据筛选方法、装置、电子设备及计算机存储介质,以至少部分解决上述问题。
[0006]根据本专利技术实施例的第一方面,提供了一种数据筛选方法,包括通过特征提取模型提取一组车辆采集图像的高维特征,特征提取模型基于自监督学习方法训练得到。对一组车辆采集图像的高维特征进行降维,得到一组车辆采集图像的低维特征。基于一组车辆采集图像的低维特征,计算一组车辆采集图像之间的相似度。从一组车辆采集图像中,筛选相似度小于预设相似度阈值的车辆采集图像。
[0007]在一种实现方式中,对一组车辆采集图像的高维特征进行降维,得到一组车辆采集图像的低维特征,包括将一组车辆采集图像的高维特征进行投影,得到一组车辆采集图像的低维特征。
[0008]在另一种实现方式中,将一组车辆采集图像的高维特征进行投影,得到一组车辆采集图像的低维特征,包括将一组车辆采集图像的高维特征在第一坐标系中的图像特征向量投影到第二坐标系的投影坐标轴上,得到一组车辆采集图像在第三坐标系中的低维特征对应的图像特征向量。第二坐标系的维度与第三坐标系的维度之和等于第一坐标系的维
度。
[0009]在另一种实现方式中,基于一组车辆采集图像的低维特征,计算一组车辆采集图像之间的相似度,包括构建低维特征对应的图像特征向量的向量距离矩阵和向量密度图。向量距离矩阵用于查找一组车辆采集图片中的图像特征向量之间的距离,向量密度图用于指示一组车辆采集图片中的各图像特征向量的分布密度。根据向量距离矩阵和向量密度图计算一组车辆采集图片之间的相似度。
[0010]在另一种实现方式中,构建低维特征对应的图像特征向量的向量距离矩阵和向量密度图,包括计算一组车辆采集图像中的任意两个图像特征向量之间的距离,构建低维特征对应的图像特征向量的向量距离矩阵。根据一组车辆采集图像中的多个相邻的图像特征向量之间的距离以及相邻的图像特征向量的数量,计算所述一组车辆采集图像的各图像特征向量密度。基于所述各图像特征向量密度的分布构建所述向量密度图。
[0011]在另一种实现方式中,根据向量距离矩阵和向量密度图计算一组车辆采集图片之间的相似度,包括根据所述向量密度图,确定一组车辆采集图像中密度最大的图像特征向量。将一组车辆采集图像中密度最大的图像特征向量移动至一组车辆采集图像的筛选图像集合中。根据向量距离矩阵查找筛选图像集合中密度最小的图像特征向量与一组车辆采集图像中各个图像特征向量之间的距离。若距离小于预设距离,则判定一组车辆采集图像中该图像特征向量与筛选图像集合中密度最小的图像特征向量相似。
[0012]在另一种实现方式中,根据向量距离矩阵和向量密度图计算一组车辆采集图像之间的相似度,还包括将判定为相似的图像特征向量从一组车辆采集图像中删除,以确定待处理的车辆采集图像组。
[0013]在另一种实现方式中,根据向量距离矩阵和向量密度图计算一组车辆采集图像之间的相似度,还包括判断待处理的车辆采集图像组是否为空。若待处理的车辆采集图像组不为空,将待处理的车辆采集图像组中密度最大的图像特征向量移动至筛选图像集合中。根据向量距离矩阵查找筛选图像集合中密度最小的图像特征向量与待处理的车辆采集图像中各个图像特征向量之间的距离。若距离小于预设距离,则判定待处理的车辆采集图像中该图像特征向量与筛选图像集合中密度最小的图像特征向量相似。将判定为相似的图像特征向量从待处理的车辆采集图像组中删除,再次判断直至待处理的车辆采集图像组为空。
[0014]在另一种实现方式中,从一组车辆采集图像中,筛选相似度小于预设相似度阈值的车辆采集图像,包括将每次得到的待处理的车辆采集图像组中密度最大的图像特征向量移动至一组车辆采集图像的先前筛选图像集合中,得到当前筛选图像集合。当前筛选图像集合中的各个图像特征向量之间的距离均大于预设距离。
[0015]根据本专利技术实施例的第二方面,提供了一种数据筛选装置,包括数据采集模块,用于通过特征提取模型提取一组车辆采集图像的高维特征,特征提取模型基于自监督学习方法训练得到。数据降维模块,用于对一组车辆采集图像的高维特征进行降维,得到一组车辆采集图像的低维特征。数据计算模块,用于基于一组车辆采集图像的低维特征,计算一组车辆采集图像之间的相似度。数据筛选模块,用于从一组车辆采集图像中,筛选相似度小于预设相似度阈值的车辆采集图像。
[0016]根据本专利技术实施例的第三方面,提供了一种电子设备,包括处理器、存储程序的存
储器。其中,程序包括指令,指令在由处理器执行时使处理器执行如第一方面的方法。
[0017]根据本专利技术实施例的第四方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面的方法。
[0018]在本专利技术实施例的方案中,通过对车辆采集图像的高维特征进行降维,并基于降维后得到的低维特征计算车辆采集图像之间的相似度,以筛选相似度小于预设相似度阈值的车辆采集图像,提高了数据筛选的精确度,进而提高了数据筛选的效率,便于后续模型的开发和训练。
附图说明
[0019]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0020]图1为本专利技术实施例中的一种场景示例的示意图。...

【技术保护点】

【技术特征摘要】
1.一种数据筛选方法,其特征在于,包括:通过特征提取模型提取一组车辆采集图像的高维特征,所述特征提取模型基于自监督学习方法训练得到;对所述一组车辆采集图像的高维特征进行降维,得到所述一组车辆采集图像的低维特征;基于所述一组车辆采集图像的低维特征,计算所述一组车辆采集图像之间的相似度;从所述一组车辆采集图像中,筛选相似度小于预设相似度阈值的车辆采集图像。2.根据权利要求1所述的方法,其特征在于,所述对所述一组车辆采集图像的高维特征进行降维,得到所述一组车辆采集图像的低维特征,包括:将所述一组车辆采集图像的高维特征进行投影,得到所述一组车辆采集图像的低维特征。3.根据权利要求2所述的方法,其特征在于,所述将所述一组车辆采集图像的高维特征进行投影,得到所述一组车辆采集图像的低维特征,包括:将所述一组车辆采集图像的高维特征在第一坐标系中的图像特征向量投影到所述第二坐标系的投影坐标轴上,得到所述一组车辆采集图像在第三坐标系中的低维特征对应的图像特征向量,所述第二坐标系的维度与第三坐标系的维度之和等于所述第一坐标系的维度。4.根据权利要求1所述的方法,其特征在于,所述基于所述一组车辆采集图像的低维特征,计算所述一组车辆采集图像之间的相似度,包括:构建所述低维特征对应的图像特征向量的向量距离矩阵和向量密度图,所述向量距离矩阵用于查找所述一组车辆采集图像中的图像特征向量之间的距离,所述向量密度图用于指示所述一组车辆采集图像中的各图像特征向量的分布密度;根据所述向量距离矩阵和所述向量密度图计算所述一组车辆采集图像之间的相似度。5.根据权利要求4所述的方法,其特征在于,所述构建所述低维特征对应的图像特征向量的向量距离矩阵和向量密度图,包括:计算所述一组车辆采集图像中的任意两个所述图像特征向量之间的距离,构建所述低维特征对应的所述图像特征向量的向量距离矩阵;根据所述一组车辆采集图像中的多个相邻的图像特征向量之间的距离以及相邻的图像特征向量的数量,计算所述一组车辆采集图像的各图像特征向量密度;基于所述各图像特征向量密度的分布构建所述向量密度图。6.根据权利要求5所述的方法,其特征在于,所述根据所述向量距离矩阵和所述向量密度图计算所述一组车辆采集图像之间的相似度,包括:根据所述向量密度图,确定所述一组车辆采集图像中密度最大的图像特征向量;将所述一组车辆采集图像中密度最大的图像特征向量移动至所述一组车辆采集图像的筛选图像集合中;根据所述向量距离矩阵查找所述筛选图像集合中所述密度最小的图像特...

【专利技术属性】
技术研发人员:祝露
申请(专利权)人:零束科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1