训练样本集清洗方法、装置制造方法及图纸

技术编号:35310513 阅读:44 留言:0更新日期:2022-10-22 13:01
本公开的实施例公开了训练样本集清洗方法、装置。该方法的一具体实施方式包括:初始训练样本集中的训练样本包括样本图像和样本图像的标注;确定初始训练样本集对应的多种聚类算法;利用多种聚类算法,对各个训练样本进行聚类以生成聚类结果;对于聚类结果中的每个簇,将簇中所包含的、标注与簇对应的标签不一致的训练样本确定为异常样本;将异常样本从训练样本集中删除,得到更新后训练样本集;对于更新后训练样本集中的每个训练样本,确定训练样本包括的样本图像中目标对象的遮挡率和大小是否满足预设条件,若满足,将更新后训练样本集确定为清洗后训练样本集。实现了异常训练样本的剔除。样本的剔除。样本的剔除。

【技术实现步骤摘要】
训练样本集清洗方法、装置


[0001]本公开的实施例涉及计算机
,具体涉及训练样本集清洗方法、装置。

技术介绍

[0002]深度神经网络在各个行业的应用越来越广泛,例如可以应用在智慧交通中,实现对于车辆的车型识别。深度神经网络需要采用训练样本集进行训练。目前,一般通过使用开源的训练样本集或通过人工对图像进行标注的方式,生成训练样本集。
[0003]然而,专利技术人发现,当采用上述方式生成训练样本集时,经常会存在如下技术问题:第一,无论是开源的训练样本集还是人工标注的方式得到的训练样本集,都存在一些标注错误的训练样本。采用这些标注错误的训练样本对模型进行训练,会影响模型的训练效果。
[0004]第二,当样本图像中显示的目标对象较小时,例如小于32像素*32像素,利用训练样本集训练得到的车型识别模型的识别准确率明显降低,导致对于远距离车辆的车型识别准确率降低。
[0005]该
技术介绍
部分中所公开的以上信息仅用于增强对本专利技术构思的背景的理解,并因此,其可包含并不形成本国的本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0006]本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
[0007]本公开的一些实施例提出了训练样本集清洗方法、装置、设备、计算机可读介质,来解决以上
技术介绍
部分提到的技术问题中的一项或多项。
[0008]第一方面,本公开的一些实施例提供了一种训练样本集清洗方法,包括:获取初始训练样本集,包括:获取初始训练样本集,初始训练样本集中的训练样本包括样本图像和样本图像的标注;确定初始训练样本集对应的多种聚类算法;将初始训练样本集中各个训练样本对应的标注的类别数目作为簇数,利用多种聚类算法,对各个训练样本进行聚类以生成聚类结果,聚类结果中包括类别数目的簇,每个簇中包括多个训练样本;对于聚类结果中的每个簇,将簇中所包含的、标注与簇对应的标签不一致的训练样本确定为异常样本;将异常样本从初始训练样本集中删除,得到更新后训练样本集;对于更新后训练样本集中的每个训练样本,确定训练样本包括的样本图像中目标对象的遮挡率和大小是否满足预设条件,若满足,将更新后训练样本集确定为清洗后训练样本集。
[0009]第二方面,本公开的一些实施例提供了训练样本集清洗装置,包括:获取单元,被配置成获取初始训练样本集,初始训练样本集中的训练样本包括样本图像和样本图像的标注;确定单元,被配置成确定初始训练样本集对应的多种聚类算法;聚类单元,被配置成将
初始训练样本集中各个训练样本对应的标注的类别数目作为簇数,利用多种聚类算法,对各个训练样本进行聚类以生成聚类结果,聚类结果中包括类别数目的簇,每个簇中包括多个训练样本;异常样本筛选单元,被配置成对于聚类结果中的每个簇,将簇中所包含的、标注与簇对应的标签不一致的训练样本确定为异常样本;删除单元,被配置成将异常样本从初始训练样本集中删除,得到更新后训练样本集;删除单元进一步被配置成对于更新后训练样本集中的每个训练样本,确定训练样本包括的样本图像中目标对象的遮挡率和大小是否满足预设条件,若满足,将更新后训练样本集确定为清洗后训练样本集。
[0010]第三方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述第一方面任一实现方式所描述的方法。
[0011]第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现上述第一方面任一实现方式所描述的方法。
[0012]本公开的上述各个实施例具有如下有益效果:结合聚类算法来对样本图像的标注进行验证,从而将异常样本进行删除,从而得到更新后训练样本集。由于将异常样本进行了删除,可以避免异常样本对模型训练造成干扰。进一步的,若确定遮挡率和大小满足预设条件,得到清洗后训练样本集,以用于模型训练,从而可以避免模型学到噪声。
附图说明
[0013]结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。
[0014]图1是根据本公开的训练样本集清洗方法的一些实施例的流程图;图2是根据本公开的训练样本集清洗装置的一些实施例的结构示意图;图3是适于用来实现本公开的一些实施例的电子设备的结构示意图。
具体实施方式
[0015]下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0016]另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
[0017]需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
[0018]需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
[0019]本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
[0020]下面将参考附图并结合实施例来详细说明本公开。
[0021]参考图1,示出了根据本公开的训练样本集清洗方法的一些实施例的流程100。该训练样本集清洗方法,包括以下步骤:步骤101,获取初始训练样本集,初始训练样本集中的训练样本包括样本图像和样本图像的标注。
[0022]在一些实施例中,训练样本集清洗方法的执行主体可以首先获取初始训练样本集。初始训练样本集中的训练样本包括样本图像和样本图像的标注。样本图像可以例如是各种动物图像,样本图像的标注可以是样本图像中显示的目标对象的类别,例如猫、狗、兔等。又如,样本图像可以是道路车辆图像,样本图像的标注可以是道路车辆图像中显示的车辆的车型信息等。根据需要,可以获取开源的图像集作为初始训练样本集,也可以通过拍摄等方式得到样本图像后进行标注。
[0023]步骤102,确定初始训练样本集对应的多种聚类算法。
[0024]在一些实施例中,上述执行主体可以确定初始训练样本集对应的多种聚类算法。不同的聚类算法可以发现不同的异常样本,例如可以选取K均值、谱聚类、基于密度的DBSCAN作为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种训练样本集清洗方法,包括:获取初始训练样本集,所述初始训练样本集中的训练样本包括样本图像和所述样本图像的标注;确定所述初始训练样本集对应的多种聚类算法;将所述初始训练样本集中各个训练样本对应的标注的类别数目作为簇数,利用所述多种聚类算法,对所述各个训练样本进行聚类以生成聚类结果,所述聚类结果中包括所述类别数目的簇,每个簇中包括多个训练样本;对于所述聚类结果中的每个簇,将所述簇中所包含的、标注与所述簇对应的标签不一致的训练样本确定为异常样本;将所述异常样本从所述初始训练样本集中删除,得到更新后训练样本集;对于所述更新后训练样本集中的每个训练样本,确定所述训练样本包括的样本图像中目标对象的遮挡率和大小是否满足预设条件,若满足,将所述更新后训练样本集确定为清洗后训练样本集。2.根据权利要求1所述的方法,其中,所述确定所述初始训练样本集对应的多种聚类算法,包括:对预设聚类算法池中各个聚类算法按照算法类型进行分组,得到多个聚类算法组,每个聚类算法组对应一个类型的聚类算法;分别从每个聚类算法组中抽取一个聚类算法,得到多种聚类算法。3.根据权利要求2所述的方法,其中,所述利用所述多种聚类算法,对所述各个训练样本进行聚类以生成聚类结果,包括:对于所述多种聚类算法中每种聚类算法,通过所述聚类算法对所述各个训练样本进行聚类以生成子聚类结果,得到多个子聚类结果;为每个子聚类结果设置权重,以及根据所述每个子聚类结果对应的权重,对所述多个子聚类结果进行融合,得到所述聚类结果。4.根据权利要求3所述的方法,其中,在所述利用所述多种聚类算法,对所述各个训练样本进行聚类以生成聚类结果之前,所述方法还包括:确定所述多种聚类算法的应用顺序,以及按照所述应用顺序进行排序,得到聚类算法序列;以及所述利用所述多种聚类算法,对所述各个训练样...

【专利技术属性】
技术研发人员:葛标王辉郭宝松柳进军张聪聪马圣赵祥孙冬雪张昆鹏王远航
申请(专利权)人:中关村科学城城市大脑股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1