数据清洗方法及装置、设备和存储介质制造方法及图纸

技术编号:27877603 阅读:34 留言:0更新日期:2021-03-31 00:59
本公开提供了一种数据清洗方法及装置、设备和存储介质,涉及数据处理领域。实现方案为:利用训练好的第一分类模型对待清洗数据样本集执行以下清洗操作:将待清洗数据样本集中每一个待清洗数据样本输入第一分类模型,基于第一分类模型的输出,确定预测标签与初始标签不一致的一个或多个待清洗数据样本的真实标签,将确定真实标签后的一个或多个待清洗数据样本确定为第一标准数据样本,利用所确定的一个或多个第一标准数据样本,对第一分类模型再次进行训练,以利用再次训练好的第一分类模型对待清洗数据样本集的剩余待清洗数据样本执行清洗操作,基于具有真实标签的多个第一标准数据样本,构建第一标准数据样本集。

【技术实现步骤摘要】
数据清洗方法及装置、设备和存储介质
本公开涉及数据处理
,尤其涉及图像处理、人工智能
,具体涉及一种数据清洗方法及装置、神经网络训练方法及装置、城市管理违章图像的违章识别方法及装置、计算机设备、计算机可读存储介质和计算机程序产品。
技术介绍
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术,也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等领域;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。人工智能被越来越广泛地应用在各个领域,例如图像识别领域。在图像识别领域中,可以利用数据清洗方法对数据进行打标,得到标准样本数据集,从而可以利用标准样本数据集进行训练学习,以能够实现图像识别。在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
技术实现思路
本公开提供了一种数据清洗方法及装置、神经网络训练方法及装置、城市管理违章图像的违章识别方法及装置、计算机设备、计算机可读存储介质和计算机程序产品。根据本公开的第一方面,提供了一种数据清洗方法,用于对待清洗数据样本集进行清洗,待清洗数据样本集包括多个具有初始标签的待清洗数据样本,数据清洗方法包括:利用训练好的第一分类模型对待清洗数据样本集执行以下清洗操作:响应于将待清洗数据样本集中每一个待清洗数据样本输入训练好的第一分类模型,第一分类模型输出待清洗数据样本集中每一个待清洗数据样本的预测标签及其标签置信度;获取预测标签与初始标签不一致的一个或多个待清洗数据样本;基于预设规则,确定预测标签与初始标签不一致的一个或多个待清洗数据样本的真实标签;以及将确定真实标签后的一个或多个待清洗数据样本确定为第一标准数据样本;利用所确定的的一个或多个第一标准数据样本,对第一分类模型再次进行训练,以利用再次训练好的第一分类模型对待清洗数据样本集的剩余待清洗数据样本执行清洗操作;以及基于具有真实标签的多个第一标准数据样本,构建第一标准数据样本集。根据本公开的另一方面,提供了一种神经网络的训练方法,其中,神经网络包括违章分类模型,训练方法包括:获取城市管理违章的待清洗样本图像集,其中,待清洗样本图像集包括多个具有初始违章标签的违章样本图像;采用上述的清洗方法对待清洗样本图像集进行清洗,确定所包括的多个违章样本图像的真实违章标签,以得到城市管理违章的标准样本图像集;利用标准样本图像集对违章分类模型进行训练。根据本公开的另一方面,提供了一种利用神经网络进行违章识别的方法,神经网络利用上述的训练方法训练得到,神经网络包括违章分类模型,识别方法包括:获取针对目标场景的第一城市管理采集图像;响应于第一城市管理采集图像输入违章分类模型,违章分类模型输出第一城市管理采集图像对应的城市管理违章标签,城市管理违章标签包括违章和不违章。根据本公开的另一方面,提供了一种数据清洗装置,用于对待清洗数据样本集进行清洗,待清洗数据样本集包括多个具有初始标签的待清洗数据样本,清洗装置包括:第一清洗单元,被配置用于利用训练好的第一分类模型对待清洗数据样本集执行清洗操作,其中,第一清洗单元包括:预测子单元,被配置用于响应于将待清洗数据样本集中每一个待清洗数据样本输入第一分类模型,第一分类模型输出待清洗数据样本集中每一个待清洗数据样本的预测标签及其标签置信度;第一获取子单元,被配置用于获取预测标签与初始标签不一致的一个或多个待清洗数据样本;第一确定子单元,被配置用于基于预设规则,确定预测标签与初始标签不一致的一个或多个待清洗数据样本的真实标签;以及第二确定子单元,被配置用于将确定真实标签后的一个或多个待清洗数据样本确定为第一标准数据样本;第一训练单元,被配置用于利用所确定的一个或多个第一标准数据样本对第一分类模型再次进行训练,以使第一清洗单元利用再次训练好的第一分类模型对待清洗数据样本集的剩余待清洗数据样本执行清洗操作;以及第一构建单元,被配置用于基于具有真实标签的多个第一标准数据样本,构建第一标准数据样本集。根据本公开的另一方面,提供了一种神经网络的训练装置,其中,神经网络包括违章分类模型,训练装置包括:第三获取单元,被配置用于获取城市管理违章的待清洗样本图像集,其中,待清洗样本图像集包括多个具有初始违章标签的违章样本图像;第二清洗单元,被配置用于采用上述的清洗方法对待清洗样本图像集进行清洗,确定所包括的多个违章样本图像的真实违章标签,以得到城市管理违章的标准样本图像集;第三训练单元,被配置用于利用标准样本图像集对违章分类模型进行训练。根据本公开的另一方面,提供了一种基于城市管理违章图像的违章识别装置,识别装置包括:根据上述的训练方法训练得到的神经网络,其中,神经网络包括违章分类模型;第五获取单元,被配置用于获取针对目标场景的第一城市管理采集图像,其中,违章分类模型被配置用于响应于第一城市管理采集图像输入违章分类模型,输出第一城市管理采集图像对应的城市管理违章标签,城市管理违章标签包括违章和不违章。根据本公开的另一方面,提供了一种计算机设备,包括:存储器、处理器以及存储在存储器上的计算机程序,其中,处理器被配置为执行计算机程序以实现上述的方法的步骤。根据本公开的另一方面,提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,其中,计算机程序被处理器执行时实现上述的方法的步骤。根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,计算机程序被处理器执行时实现上述的方法的步骤。根据本公开的一个或多个实施例,可以利用分类模型对待清洗数据样本集进行清洗,并且利用每次清洗得到的标准样本数据对分类模型进行迭代训练,不断优化分类模型,使得在每一次的清洗操作中,能够在大量的待清洗数据样本中实现对具有错误标签的数据样本的准确识别,实现对待清洗数据样本的有针对性地清洗,提高了数据样本的清洗效率,并进而提升基于该清洗后的数据样本对神经网络进行训练的效果以及利用神经网络进行图像识别的准确率。应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。图1示出了根据本公开的实施例的可以在其中实施本文描述的各种方法的示例性系统的示意图;图2(a)示出了根据本公开的实施例的数据清洗方法的流程图;图2(b)示出了根据本公开的实施例的数据清本文档来自技高网...

【技术保护点】
1.一种数据清洗方法,用于对待清洗数据样本集进行清洗,所述待清洗数据样本集包括多个具有初始标签的待清洗数据样本,所述数据清洗方法包括:/n利用训练好的第一分类模型对所述待清洗数据样本集执行以下清洗操作:/n响应于将所述待清洗数据样本集中每一个待清洗数据样本输入所述第一分类模型,所述第一分类模型输出所述待清洗数据样本集中每一个待清洗数据样本的预测标签及其标签置信度;/n获取预测标签与初始标签不一致的一个或多个待清洗数据样本;/n基于预设规则,确定预测标签与初始标签不一致的所述一个或多个待清洗数据样本的真实标签;以及/n将确定真实标签后的所述一个或多个待清洗数据样本确定为第一标准数据样本;/n利用所确定的一个或多个所述第一标准数据样本,对第一分类模型再次进行训练,以利用再次训练好的第一分类模型对所述待清洗数据样本集的剩余待清洗数据样本执行所述清洗操作;以及/n基于具有真实标签的多个所述第一标准数据样本,构建第一标准数据样本集。/n

【技术特征摘要】
1.一种数据清洗方法,用于对待清洗数据样本集进行清洗,所述待清洗数据样本集包括多个具有初始标签的待清洗数据样本,所述数据清洗方法包括:
利用训练好的第一分类模型对所述待清洗数据样本集执行以下清洗操作:
响应于将所述待清洗数据样本集中每一个待清洗数据样本输入所述第一分类模型,所述第一分类模型输出所述待清洗数据样本集中每一个待清洗数据样本的预测标签及其标签置信度;
获取预测标签与初始标签不一致的一个或多个待清洗数据样本;
基于预设规则,确定预测标签与初始标签不一致的所述一个或多个待清洗数据样本的真实标签;以及
将确定真实标签后的所述一个或多个待清洗数据样本确定为第一标准数据样本;
利用所确定的一个或多个所述第一标准数据样本,对第一分类模型再次进行训练,以利用再次训练好的第一分类模型对所述待清洗数据样本集的剩余待清洗数据样本执行所述清洗操作;以及
基于具有真实标签的多个所述第一标准数据样本,构建第一标准数据样本集。


2.如权利要求1所述的数据清洗方法,其中,所述获取预测标签与初始标签不一致的一个或多个待清洗数据样本包括:
设置动态阈值,
其中,预测标签与初始标签不一致的所述一个或多个待清洗数据样本中每一个待清洗数据样本的标签置信度不小于所述动态阈值。


3.如权利要求1所述的数据清洗方法,其中,所述预设规则包括第一预设规则,对所述待清洗数据样本的清洗操作包括:
设置预设阈值;
响应于确定动态阈值不小于预设阈值,基于第一预设规则,确定预测标签与初始标签不一致的所述一个或多个待清洗数据样本的真实标签。


4.如权利要求3所述的数据清洗方法,其中,所述基于第一预设规则,确定预测标签与初始标签不一致的所述一个或多个待清洗数据样本的真实标签包括:
确定所述一个或多个待清洗数据样本的预测标签为所述真实标签。


5.如权利要求3所述的数据清洗方法,其中,所述对所述待清洗数据样本的清洗操作还包括:
响应于确定动态阈值小于预设阈值,基于第二预设规则,确定预测标签与初始标签不一致的所述一个或多个待清洗数据样本的真实标签,
其中,所述第二预设规则与所述第一预设规则不同。


6.如权利要求5所述的数据清洗方法,其中,所述基于第二预设规则,确定预测标签与初始标签不一致的所述一个或多个待清洗数据样本的真实标签包括:
获取预测标签与初始标签不一致的所述一个或多个待清洗数据样本的真实数据特征;
基于相应的真实数据特征,确定预测标签与初始标签不一致的所述一个或多个待清洗数据样本的真实标签。


7.如权利要求2-6中任一项所述的数据清洗方法,其中,针对所述待清洗数据样本集的连续两次清洗操作,第一次清洗操作中所设置的所述动态阈值大于第二次清洗操作中所设置的所述动态阈值。


8.如权利要求2-6中任一项所述的数据清洗方法,其中,对所述待清洗数据样本集的清洗操作还包括:
针对标签置信度不小于所述动态阈值、并且预测标签与初始标签一致的一个或多个待清洗数据样本,确定预测标签与初始标签一致的所述一个或多个待清洗数据样本的初始标签为真实标签。


9.如权利要求1所述的数据清洗方法,所述方法还包括:
利用初始数据样本集对第二分类模型进行训练,所述初始数据样本集包括多个具有初始标签的初始数据样本;
将第二标准数据样本集输入训练好的第二分类模型,获取所述第二分类模型输出的所述第二标准数据样本集中每一个第二标准数据样本的预测标签,其中,所述第二标准数据样本集包括多个具有真实标签的第二标准数据样本;
基于所述第二标准数据样本集中所有第二标准数据样本分别相应的真实标签和预测标签,构建混淆矩阵;
基于所述混淆矩阵,确定易混淆的一个或多个初始标签;
从所述初始数据样本集中获取所述一个或多个初始标签相应的至少部分初始数据样本,以建立所述待清洗数据样本集。


10.一种神经网络的训练方法,其中,所述神经网络包括违章分类模型,
所述训练方法包括:
获取城市管理违章的待清洗样本图像集,其中,所述待清洗样本图像集包括多个具有初始违章标签的违章样本图像;
采用如权利要求1-9中任一项所述的清洗方法对所述待清洗样本图像集进行清洗,确定所包括的多个违章样本图像的真实违章标签,以得到城市管理违章的标准样本图像集;
利用所述标准样本图像集对所述违章分类模型进行训练。


11.如权利要求10所述的训练方法,所述方法还包括:
获取与多个真实违章标签中每一个所述真实违章标签相对应的销案样本图像,并确定每一个销案样本图像的真实销案标签;以及
将多个具有真实销案标签的销案样本图像添加到所述城市管理违章的标准样本图像集中。


12.如权利要求11所述的训练方法,其中,所述神经网络还包括违章检测模型,
所述训练方法还包括:
利用所述城市管理违章的标准样本图像集对所述违章检测模型进行训练,以使得所述违章检测模型能够基于输入的城市管理采集图像,输出所述城市管理违章的标准样本图像集中相关的真实违章标签的存在属性,
其中,所述存在属性包括存在和不存在两种属性。


13.一种利用神经网络进行违章识别的方法,所述神经网络利用如权利要求10至12中任一项所述的训练方法训练得到,所述神经网络包括违章分类模型,
所述识别方法包括:
获取针对目标场景的第一城市管理采集图像;
响应于第一城市管理采集图像输入所述违章分类模型,所述违章分类模型输出所述第一城市管理采集图像对应的城市管理违章标签,所述城市管理违章标签包括违章和不违章。


14.如权利要求13所述的识别方法,所述识别方法还包括:
响应于确定所述违章分类模型所输出的所述第一城市管理采集图像对应的城市管理违章标签为违章,针对所述第一城市管理采集图像执行立案,其中,所述立案包括记录所述城市管理违章标签。


15.如权利要求14所述的识别方法,所述识别方法还包括:
针对所述第一城市管理采集图像执行立案之后,获取针对目标场景的第二城市管理采集图像;
将所述第二城市管理采集图像输入所述违章分类模型;
响应于确定所述违章分类模型所输出的所述第二城市管理采集图像的城市管理违章标签与第一城市管理采集图像的城市管理违章标签一致,确定不撤销针对所述第一城市管理采集图像的立案。


16.如权利要求15所述的识别方法,其中,所述神经网络还包括违章检测模型,所述识别方法还包括:
响应于确定所述违章分类模型所输出的所述第二城市管理采集图像的城市管理违章标签与第一城市管理采集图像的城市管理违章标签不一致,将第二城市管理采集图像输入所述违章检测模型,并获取所述违章检测模型输出的所述记录的城市管理违章标签的存在属性;
响应于确定所述记录的城市管理违章标签的存在属性为存在,确定不撤销针对所述第一城市管理采集图像的立案。


17.如权利要求16所述的识别方法,所述方法还包括:
响应于确定所述记录的城市管理违章标签的存在属性为不存在,确定撤销针对所述第一城市管理采集图像的立案。


18.一种数据清洗装置,用于对待清洗数据样本集进行清洗,所述待清洗数据样本集包括多个具有初始标签的待清洗数据样本,所述清洗装置包括:
第一清洗单元,被配置用于利用训练好的第一分类模型对所述待清洗数据样本集执行清洗操作,其中,所述第一清洗单元包括:
预测子单元,被配置用于响应于将所述待清洗数据样本集中每一个待清洗数据样本输入所述第一分类模型,所述第一分类模型输出所述待清洗数据样本集中每一个待清洗数据样本的预测标签及其标签置信度;
第一获取子单元,被配置用于获取预测标签与初始标签不一致的一个或多个待清洗数据样本;
...

【专利技术属性】
技术研发人员:唐鑫王冠皓
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1