【技术实现步骤摘要】
数据处理与数据质检方法、装置及可读存储介质
[0001]本公开涉及计算机
,尤其涉及云服务、深度学习等人工智能
,具体提供了一种数据处理与数据质检方法、装置、电子设备及可读存储介质。
技术介绍
[0002]数据标注质检是指对已标注数据的质量进行检验。随着人工智能(Artificial Intelligence,AI)技术的迅速发展,AI企业或个人开发者对数据的需求日益增长。而数据的标注质量,对AI算法的性能有着巨大的影响,只有大量客观、精准的已标注数据,才能有助于AI算法性能的提升。
[0003]在相关技术中,通常采用人工质检的方式来观察并判断已标注的数据是否存在标注错误。然而,这种通过人工质检的方式,可能因数据量大、人工疏忽等原因出现失误,且人工质检的成本较高。
技术实现思路
[0004]为了解决相关技术中存在的通过人工质检的方式获取待质检数据并进行质检存在的质检成本较高、质检准确性较差的技术问题,本公开提出一种数据处理与数据质检方法,用于实现自动地从待处理数据中筛选得到待质检数据的目的,能够降低获得待质检数据的成本,提升获得待质检数据的效率与准确性。
[0005]根据本公开的第一方面,提供了一种数据处理方法,包括:获取至少一个待处理数据,所述至少一个待处理数据为经过标注的待处理数据;使用目标神经网络模型对所述至少一个待处理数据进行预设次数的预测,得到所述至少一个待处理数据在每次预测时的预测结果;根据所述至少一个待处理数据的标注结果与所述至少一个待处理数据在每次预测时的预 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,包括:获取至少一个待处理数据,所述至少一个待处理数据为经过标注的待处理数据;使用目标神经网络模型对所述至少一个待处理数据进行预设次数的预测,得到所述至少一个待处理数据在每次预测时的预测结果;根据所述至少一个待处理数据的标注结果与所述至少一个待处理数据在每次预测时的预测结果,生成所述至少一个待处理数据的比对结果序列;根据所述至少一个待处理数据的比对结果序列,确定所述至少一个待处理数据中的待质检数据。2.根据权利要求1所述的方法,其中,所述获取至少一个待处理数据包括:获取质检请求,所述质检请求中包含数据标识信息;将与所述数据标识信息对应的至少一个数据,作为所述至少一个待处理数据。3.根据权利要求1所述的方法,还包括:通过以下方式确定所述目标神经网络:根据所述至少一个待处理数据的标注结果,确定用于表征神经网络模型的训练任务的任务信息;将与所述任务信息对应的神经网络模型,作为所述目标神经网络模型。4.根据权利要求1所述的方法,其中,所述根据所述至少一个待处理数据的标注结果与所述至少一个待处理数据在每次预测时的预测结果,生成所述至少一个待处理数据的比对结果序列包括:将所述至少一个待处理数据的标注结果分别与所述至少一个待处理数据在每次预测时的预测结果进行比对,得到所述至少一个待处理数据在每次预测时的用于表征预测正确或者预测错误的比对结果;根据所述至少一个待处理数据在每次预测时的用于表征预测正确或者预测错误的比对结果,生成所述至少一个待处理数据的比对结果序列。5.根据权利要求1
‑
4中任一项所述的方法,其中,所述根据所述至少一个待处理数据的比对结果序列,确定所述至少一个待处理数据中的待质检数据包括:根据所述至少一个待处理数据的比对结果序列,得到所述至少一个待处理数据的遗忘次数;根据所述至少一个待处理数据的遗忘次数,确定所述至少一个待处理数据中的待质检数据。6.根据权利要求5所述的方法,其中,所述根据所述至少一个待处理数据的比对结果序列,得到所述至少一个待处理数据的遗忘次数包括:统计所述至少一个待处理数据的比对结果序列中,出现预设的比对结果顺序的次数;将统计得到的次数,作为所述至少一个待处理数据的遗忘次数。7.根据权利要求5所述的方法,其中,所述根据所述至少一个待处理数据的比对结果序列,得到所述至少一个待处理数据的遗忘次数包括:在确定所述至少一个待处理数据的比对结果序列中不存在用于表征预测正确的比对结果的情况下,将所述至少一个待处理数据的遗忘次数标记为预设遗忘次数。8.根据权利要求5所述的方法,其中,所述根据所述至少一个待处理数据的遗忘次数,
确定所述至少一个待处理数据中的待质检数据包括:针对每个待处理数据,获取所述目标神经网络模型在最后一次预测该待处理数据时的输出结果;根据所述至少一个待处理数据的输出结果与所述遗忘次数,确定所述至少一个待处理数据中的待质检数据。9.一种数据质检方法,包括:根据权利要求1
‑
8中任一项所述的方法获取待质检数据;对所述待质检数据进行质检,获得质检结果。10.一种数据处理装置,包括:第一获取单元,用于获取至少一个待处理数据,所述至少一个待处理数据为经过标注的待处理数据;预测单元,用于使用目标神经网络模型对所述至少一个待处理数据进行预设次数的预测,得到所述至少一个待处理数据在每次预测时的预测结果;生成单元,用于根据所述至少一个待处理数据的标注结果与所述至少一个待处理数据在每次预测时的预测结果,生成所述至少一个待处理数据的比对结果序列;处理单元,用于根据...
【专利技术属性】
技术研发人员:夏晶,赵鹏昊,李曙鹏,吕海军,华蔚颖,施恩,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。