【技术实现步骤摘要】
数据标注管理方法及装置、电子设备和可读存储介质
本专利技术涉及自动化测试领域,尤其涉及一种数据标注管理方法及装置、电子设备和可读存储介质。
技术介绍
人工智能(AI,ArtificialIntelligence)亦称智械、机器智能,指由人类制造出来的机器所表现出来的智能。在人工智能飞速发展的今天,机器已经具备了人的视觉、听觉、语义识别的能力。如果要让机器变得越来越“聪明”,则需要大量优质的人工标注数据来提升机器学习的准确性。而且,随着人工智能的广泛应用和普及,机器学习的不断深入,对优质标注数据的需求也与日俱增。因此,需要大量的标注员,利用管理平台及可视化标注工具,对海量文本、图片、语音、视频等数据进行归类、整理、纠错和批注等工作。然而,由于能够提供数据标注服务的标注员的专业水平参差不齐,为了实现较高的标注正确率,目前所采用的方式为由标注专家对标注员集中培训后上岗,然后在标注过程中,由标注专家对标注员的原始标注结果进行审核确定最终正确的结果,不仅对标注专家的依赖度太高且复核工作量很大。而且,对于标注专家抽审标注员的原始标注结果的情况,交付错误数据的可能性较大,如果客户抽检恰好命中错误数据,则为了保障交付质量,经常需要全部重新审核,可见审核成本居高不下,还会严重拖慢项目的交付进度。因此,如何使数据标注质量、速度、成本得到有效地改善,成为亟需解决的技术问题。
技术实现思路
本专利技术实施例提供一种数据标注管理方法及装置、电子设备和可读存储介质,旨在解决由于标注员的专业水平参差不齐 ...
【技术保护点】
1.一种数据标注管理方法,其特征在于,包括:/n根据待标注任务对应的待标注数据和目标标注员对应的历史标注行为数据,获取参考标注数据集;/n获取所述目标标注员对考核标注数据和分布在所述考核标注数据中的第一参考标注数据的第一标注结果,所述考核标注数据为所述待标注数据的一部分且具有正确的标注答案,所述第一参考标注数据属于所述参考标注数据集;/n若所述第一标注结果对应的正确率大于或等于预设正确率阈值,则根据所述目标标注员对已分布在所述待标注数据中的第二参考标注数据的第二标注结果,确定是否允许所述目标标注员继续执行所述待标注任务,所述第二参考标注数据属于所述参考标注数据集。/n
【技术特征摘要】
1.一种数据标注管理方法,其特征在于,包括:
根据待标注任务对应的待标注数据和目标标注员对应的历史标注行为数据,获取参考标注数据集;
获取所述目标标注员对考核标注数据和分布在所述考核标注数据中的第一参考标注数据的第一标注结果,所述考核标注数据为所述待标注数据的一部分且具有正确的标注答案,所述第一参考标注数据属于所述参考标注数据集;
若所述第一标注结果对应的正确率大于或等于预设正确率阈值,则根据所述目标标注员对已分布在所述待标注数据中的第二参考标注数据的第二标注结果,确定是否允许所述目标标注员继续执行所述待标注任务,所述第二参考标注数据属于所述参考标注数据集。
2.根据权利要求1所述方法,其特征在于,所述第一参考标注数据按预设规律分布在所述考核标注数据中,所述第一参考标注数据在所述考核标注数据中的分布密度与所述目标标注员对所述第一参考标注数据的标注实时正确率有关;
所述第二参考标注数据按所述预设规律分布在所述待标注数据中,所述第二参考标注数据在所述待标注数据中的分布密度与所述目标标注员对所述第二参考标注数据的标注实时正确率有关。
3.根据权利要求1或2所述方法,其特征在于,所述若所述第一标注结果对应的正确率大于或等于预设正确率阈值,则根据所述目标标注员对已分布在所述待标注数据中的第二参考标注数据的第二标注结果,确定是否允许所述目标标注员继续执行所述待标注任务,包括:
根据所述第一标注结果对应的正确率预估所述目标标注员对所述待标注任务的第一整体正确率;
若基于所述第二标注结果对应的正确率预估的所述目标标注员对所述待标注任务的第二整体正确率小于所述第一整体正确率,则禁止所述目标标注员继续执行所述待标注任务;
若所述第二整体正确率大于或等于所述第一整体正确率,则允许所述目标标注员继续执行所述待标注任务。
4.根据权利要求3所述方法,其特征在于,所述方法还包括:
根据所述第一标注结果对应的正确率确定所述目标标注员的标注等级;
在所述目标标注员执行完所述待标注任务的情况下,为所述目标标注员对所述待标注数据的第三标注结果匹配与所述标注等级对应的审核方式。
5.根据权利要求1或2所述方法,其特征在于,所述方法还包括:
若所述第一标注结果对应的正确率小于所述预设正确率阈值,则获取所述目标标注员对所述考核标注数据和分布在所述考核标注数据中的第三参考标注数据的第三标注结果;
将所述第三标注结果作为新的第一标注结果,以判断所述第一标注结果对应的正确率是否大于或等于所述预设正确率阈值;
重复上述过程,直至所述第一标注结果对应的正确率大于或等于所述预设正确率阈值或者获取到所述第一标注结果的累计次数大于或等于预设次数,所述预设次数与所述考核标注数据的难度匹配。
6.根据权利要求1或2所述方法,其特征在于,所述根据待标注任务对应的待标注数据和目标标注员的历史标注行为数据,获取参考标注数据集,包括:
根据所述...
【专利技术属性】
技术研发人员:刘权庆,
申请(专利权)人:北京云聚智慧科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。