数据处理与数据质检方法、装置及可读存储介质制造方法及图纸

技术编号:32510854 阅读:12 留言:0更新日期:2022-03-02 10:55
本公开提供了一种数据处理与数据质检方法、装置及可读存储介质,涉及云服务、深度学习等人工智能技术领域。数据处理方法包括:获取至少一个待处理数据,至少一个待处理数据为经过标注的待处理数据;使用目标神经网络模型对至少一个待处理数据进行预设次数的预测,得到至少一个待处理数据在每次预测时的预测结果;根据至少一个待处理数据的标注结果与至少一个待处理数据在每次预测时的预测结果,生成至少一个待处理数据的比对结果序列;根据至少一个待处理数据的比对结果序列,确定至少一个待处理数据中的待质检数据。数据质检方法包括:根据数据处理方法获取待质检数据;对待质检数据进行质检,获得质检结果。获得质检结果。获得质检结果。

【技术实现步骤摘要】
数据处理与数据质检方法、装置及可读存储介质


[0001]本公开涉及计算机
,尤其涉及云服务、深度学习等人工智能
,具体提供了一种数据处理与数据质检方法、装置、电子设备及可读存储介质。

技术介绍

[0002]数据标注质检是指对已标注数据的质量进行检验。随着人工智能(Artificial Intelligence,AI)技术的迅速发展,AI企业或个人开发者对数据的需求日益增长。而数据的标注质量,对AI算法的性能有着巨大的影响,只有大量客观、精准的已标注数据,才能有助于AI算法性能的提升。
[0003]在相关技术中,通常采用人工质检的方式来观察并判断已标注的数据是否存在标注错误。然而,这种通过人工质检的方式,可能因数据量大、人工疏忽等原因出现失误,且人工质检的成本较高。

技术实现思路

[0004]为了解决相关技术中存在的通过人工质检的方式获取待质检数据并进行质检存在的质检成本较高、质检准确性较差的技术问题,本公开提出一种数据处理与数据质检方法,用于实现自动地从待处理数据中筛选得到待质检数据的目的,能够降低获得待质检数据的成本,提升获得待质检数据的效率与准确性。
[0005]根据本公开的第一方面,提供了一种数据处理方法,包括:获取至少一个待处理数据,所述至少一个待处理数据为经过标注的待处理数据;使用目标神经网络模型对所述至少一个待处理数据进行预设次数的预测,得到所述至少一个待处理数据在每次预测时的预测结果;根据所述至少一个待处理数据的标注结果与所述至少一个待处理数据在每次预测时的预测结果,生成所述至少一个待处理数据的比对结果序列;根据所述至少一个待处理数据的比对结果序列,确定所述至少一个待处理数据中的待质检数据。
[0006]根据本公开的第二方面,提供了一种数据质检方法,包括:根据数据处理方法获取待质检数据;对所述待质检数据进行质检,获得质检结果。
[0007]根据本公开的第三方面,提供了一种数据处理装置,包括:第一获取单元,用于获取至少一个待处理数据,所述至少一个待处理数据为经过标注的待处理数据;预测单元,用于使用目标神经网络模型对所述至少一个待处理数据进行预设次数的预测,得到所述至少一个待处理数据在每次预测时的预测结果;生成单元,用于根据所述至少一个待处理数据的标注结果与所述至少一个待处理数据在每次预测时的预测结果,生成所述至少一个待处理数据的比对结果序列;处理单元,用于根据所述至少一个待处理数据的比对结果序列,确定所述至少一个待处理数据中的待质检数据。
[0008]根据本公开的第四方面,提供了一种数据质检装置,包括:第二获取单元,用于根据数据处理装置获取待质检数据;质检单元,用于对所述待质检数据进行质检,获得质检结果。
[0009]根据本公开的第五方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方法。
[0010]根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如上所述的方法。
[0011]根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的方法。
[0012]由以上技术方案可以看出,本公开实现了自动地从待处理数据中筛选得到待质检数据的目的,能够降低获得待质检数据的成本,提升获得待质检数据的效率与准确性。
[0013]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0014]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0015]图1是根据本公开第一实施例的示意图;
[0016]图2是根据本公开第二实施例的示意图;
[0017]图3是根据本公开第三实施例的示意图;
[0018]图4是根据本公开第四实施例的示意图;
[0019]图5是根据本公开第五实施例的示意图;
[0020]图6是根据本公开第六实施例的示意图;
[0021]图7是用来实现本公开实施例的数据处理或数据质检方法的电子设备的框图。
具体实施方式
[0022]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和机构的描述。
[0023]图1是根据本公开第一实施例的示意图。如图1所示,本实施例的数据处理方法,具体包括如下步骤:
[0024]S101、获取至少一个待处理数据,所述至少一个待处理数据为经过标注的待处理数据;
[0025]S102、使用目标神经网络模型对所述至少一个待处理数据进行预设次数的预测,得到所述至少一个待处理数据在每次预测时的预测结果;
[0026]S103、根据所述至少一个待处理数据的标注结果与所述至少一个待处理数据在每次预测时的预测结果,生成所述至少一个待处理数据的比对结果序列;
[0027]S104、根据所述至少一个待处理数据的比对结果序列,确定所述至少一个待处理数据中的待质检数据。
[0028]本实施例的数据处理方法,在使用目标神经网络模型对获取的至少一个待处理数
据进行预设次数的预测之后,根据至少一个待处理数据的标注结果与至少一个待处理数据在每次预测时的预测结果,生成至少一个待处理数据的比对结果序列,进而根据至少一个待处理数据的比对结果序列,从至少一个待处理数据中确定待质检数据,本实施例实现了自动地从待处理数据中筛选得到待质检数据的目的,能够降低获得待质检数据的成本,提升获得待质检数据的效率与准确性。
[0029]本实施例的数据处理方法的执行主体可以为云端服务器,也可以为终端设备。
[0030]本实施例执行S101获取的至少一个待处理数据,为经过人工标注或者自动标注的图像、文本、音频等数据,即除了原始数据之外,还包含原始数据的标注结果。其中,本实施例中的待处理数据的标注结果可以为类别识别结果、目标识别结果、文本识别结果等。
[0031]本实施例在执行S101获取至少一个待处理数据时,可以将输入端输入的至少一个数据,作为至少一个待处理数据;也可以根据输入端发送的质检请求,将数据库中与所接收的质检请求对应的至少一个数据,作为至少一个待处理数据。
[0032]其中,本实施例在执行S101获取至少一个待处理数据时,可以采用的可选实现方式为:获取质检请求,该质检请求由输入端发送,包含数据标识信息,该数据标识信息可以为数据集的ID等;将与所获取的数据标识信息对应的至本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,包括:获取至少一个待处理数据,所述至少一个待处理数据为经过标注的待处理数据;使用目标神经网络模型对所述至少一个待处理数据进行预设次数的预测,得到所述至少一个待处理数据在每次预测时的预测结果;根据所述至少一个待处理数据的标注结果与所述至少一个待处理数据在每次预测时的预测结果,生成所述至少一个待处理数据的比对结果序列;根据所述至少一个待处理数据的比对结果序列,确定所述至少一个待处理数据中的待质检数据。2.根据权利要求1所述的方法,其中,所述获取至少一个待处理数据包括:获取质检请求,所述质检请求中包含数据标识信息;将与所述数据标识信息对应的至少一个数据,作为所述至少一个待处理数据。3.根据权利要求1所述的方法,还包括:通过以下方式确定所述目标神经网络:根据所述至少一个待处理数据的标注结果,确定用于表征神经网络模型的训练任务的任务信息;将与所述任务信息对应的神经网络模型,作为所述目标神经网络模型。4.根据权利要求1所述的方法,其中,所述根据所述至少一个待处理数据的标注结果与所述至少一个待处理数据在每次预测时的预测结果,生成所述至少一个待处理数据的比对结果序列包括:将所述至少一个待处理数据的标注结果分别与所述至少一个待处理数据在每次预测时的预测结果进行比对,得到所述至少一个待处理数据在每次预测时的用于表征预测正确或者预测错误的比对结果;根据所述至少一个待处理数据在每次预测时的用于表征预测正确或者预测错误的比对结果,生成所述至少一个待处理数据的比对结果序列。5.根据权利要求1

4中任一项所述的方法,其中,所述根据所述至少一个待处理数据的比对结果序列,确定所述至少一个待处理数据中的待质检数据包括:根据所述至少一个待处理数据的比对结果序列,得到所述至少一个待处理数据的遗忘次数;根据所述至少一个待处理数据的遗忘次数,确定所述至少一个待处理数据中的待质检数据。6.根据权利要求5所述的方法,其中,所述根据所述至少一个待处理数据的比对结果序列,得到所述至少一个待处理数据的遗忘次数包括:统计所述至少一个待处理数据的比对结果序列中,出现预设的比对结果顺序的次数;将统计得到的次数,作为所述至少一个待处理数据的遗忘次数。7.根据权利要求5所述的方法,其中,所述根据所述至少一个待处理数据的比对结果序列,得到所述至少一个待处理数据的遗忘次数包括:在确定所述至少一个待处理数据的比对结果序列中不存在用于表征预测正确的比对结果的情况下,将所述至少一个待处理数据的遗忘次数标记为预设遗忘次数。8.根据权利要求5所述的方法,其中,所述根据所述至少一个待处理数据的遗忘次数,
确定所述至少一个待处理数据中的待质检数据包括:针对每个待处理数据,获取所述目标神经网络模型在最后一次预测该待处理数据时的输出结果;根据所述至少一个待处理数据的输出结果与所述遗忘次数,确定所述至少一个待处理数据中的待质检数据。9.一种数据质检方法,包括:根据权利要求1

8中任一项所述的方法获取待质检数据;对所述待质检数据进行质检,获得质检结果。10.一种数据处理装置,包括:第一获取单元,用于获取至少一个待处理数据,所述至少一个待处理数据为经过标注的待处理数据;预测单元,用于使用目标神经网络模型对所述至少一个待处理数据进行预设次数的预测,得到所述至少一个待处理数据在每次预测时的预测结果;生成单元,用于根据所述至少一个待处理数据的标注结果与所述至少一个待处理数据在每次预测时的预测结果,生成所述至少一个待处理数据的比对结果序列;处理单元,用于根据...

【专利技术属性】
技术研发人员:夏晶赵鹏昊李曙鹏吕海军华蔚颖施恩
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1