数据标注管理方法及装置、电子设备和可读存储介质制造方法及图纸

技术编号:23985919 阅读:33 留言:0更新日期:2020-04-29 13:31
本发明专利技术公开了一种数据标注管理方法及装置、电子设备和可读存储介质,方法包括:根据待标注任务对应的待标注数据和目标标注员对应的历史标注行为数据,获取参考标注数据集;获取目标标注员对考核标注数据和分布在考核标注数据中的第一参考标注数据的第一标注结果,考核标注数据为待标注数据的一部分且具有正确的标注答案,第一参考标注数据属于参考标注数据集;若第一标注结果对应的正确率大于或等于预设正确率阈值,则根据目标标注员对已分布在待标注数据中的第二参考标注数据的第二标注结果,确定是否允许目标标注员继续执行待标注任务,第二参考标注数据属于参考标注数据集。本发明专利技术实施例可以提高数据标注的质量及效率。

Data annotation management method and device, electronic equipment and readable storage medium

【技术实现步骤摘要】
数据标注管理方法及装置、电子设备和可读存储介质
本专利技术涉及自动化测试领域,尤其涉及一种数据标注管理方法及装置、电子设备和可读存储介质。
技术介绍
人工智能(AI,ArtificialIntelligence)亦称智械、机器智能,指由人类制造出来的机器所表现出来的智能。在人工智能飞速发展的今天,机器已经具备了人的视觉、听觉、语义识别的能力。如果要让机器变得越来越“聪明”,则需要大量优质的人工标注数据来提升机器学习的准确性。而且,随着人工智能的广泛应用和普及,机器学习的不断深入,对优质标注数据的需求也与日俱增。因此,需要大量的标注员,利用管理平台及可视化标注工具,对海量文本、图片、语音、视频等数据进行归类、整理、纠错和批注等工作。然而,由于能够提供数据标注服务的标注员的专业水平参差不齐,为了实现较高的标注正确率,目前所采用的方式为由标注专家对标注员集中培训后上岗,然后在标注过程中,由标注专家对标注员的原始标注结果进行审核确定最终正确的结果,不仅对标注专家的依赖度太高且复核工作量很大。而且,对于标注专家抽审标注员的原始标注结果的情况,交付错误数据的可能性较大,如果客户抽检恰好命中错误数据,则为了保障交付质量,经常需要全部重新审核,可见审核成本居高不下,还会严重拖慢项目的交付进度。因此,如何使数据标注质量、速度、成本得到有效地改善,成为亟需解决的技术问题。
技术实现思路
本专利技术实施例提供一种数据标注管理方法及装置、电子设备和可读存储介质,旨在解决由于标注员的专业水平参差不齐导致的数据标注质量、速度低下的问题。本专利技术实施例采用下述技术方案:第一方面,本专利技术实施例提供一种数据标注管理方法,包括:根据待标注任务对应的待标注数据和目标标注员对应的历史标注行为数据,获取参考标注数据集;获取所述目标标注员对考核标注数据和分布在所述考核标注数据中的第一参考标注数据的第一标注结果,所述考核标注数据为所述待标注数据的一部分且具有正确的标注答案,所述第一参考标注数据属于所述参考标注数据集;若所述第一标注结果对应的正确率大于或等于预设正确率阈值,则根据所述目标标注员对已分布在所述待标注数据中的第二参考标注数据的第二标注结果,确定是否允许所述目标标注员继续执行所述待标注任务,所述第二参考标注数据属于所述参考标注数据集。第二方面,本专利技术实施例提供一种数据标注管理装置,包括:第一获取模块,用于根据待标注任务对应的待标注数据和目标标注员对应的历史标注行为数据,获取参考标注数据集;第二获取模块,用于获取所述目标标注员对考核标注数据和分布在所述考核标注数据中的第一参考标注数据的第一标注结果,所述考核标注数据为所述待标注数据的一部分且具有正确的标注答案,所述第一参考标注数据属于所述参考标注数据集;管理模块,用于若所述第一标注结果对应的正确率大于或等于预设正确率阈值,则根据所述目标标注员对已分布在所述待标注数据中的第二参考标注数据的第二标注结果,确定是否允许所述目标标注员继续执行所述待标注任务,所述第二参考标注数据属于所述参考标注数据集。第三方面,本申请实施例提供一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:根据待标注任务对应的待标注数据和目标标注员对应的历史标注行为数据,获取参考标注数据集;获取所述目标标注员对考核标注数据和分布在所述考核标注数据中的第一参考标注数据的第一标注结果,所述考核标注数据为所述待标注数据的一部分且具有正确的标注答案,所述第一参考标注数据属于所述参考标注数据集;若所述第一标注结果对应的正确率大于或等于预设正确率阈值,则根据所述目标标注员对已分布在所述待标注数据中的第二参考标注数据的第二标注结果,确定是否允许所述目标标注员继续执行所述待标注任务,所述第二参考标注数据属于所述参考标注数据集。第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:根据待标注任务对应的待标注数据和目标标注员对应的历史标注行为数据,获取参考标注数据集;获取所述目标标注员对考核标注数据和分布在所述考核标注数据中的第一参考标注数据的第一标注结果,所述考核标注数据为所述待标注数据的一部分且具有正确的标注答案,所述第一参考标注数据属于所述参考标注数据集;若所述第一标注结果对应的正确率大于或等于预设正确率阈值,则根据所述目标标注员对已分布在所述待标注数据中的第二参考标注数据的第二标注结果,确定是否允许所述目标标注员继续执行所述待标注任务,所述第二参考标注数据属于所述参考标注数据集。本专利技术实施例采用的上述至少一个技术方案能够达到以下有益效果:在本专利技术实施例中,当对待标注任务对应的待标注数据进行标注时,可以先基于该待标注数据和目标标注员对应的历史标注行为数据得到参考标注数据集,然后通过考核标注数据对目标标注员进行考核,考核标注数据为待标注数据中的一部分且已由标注专家确认了正确的标注答案,具体可以在将考核标注数据分配给目标标注员进行标注的过程中,同时将参考标注数据集中的部分或全部即第一参考标注数据引入到考核标注数据中。然后,可以根据获取到的目标标注员对该考核标注数据和分布在其中的第一参考标注数据的第一标注结果对应的正确率与预设正确率阈值间的大小关系,确定该目标标注员是否有标注资格,并在该第一标注结果对应的正确率达到该预设正确率阈值的情况下确定其有标注资格,则可以允许其正式执行该待标注任务。进一步地,可以在目标标注员对待标注数据进行标注时,同样将参考标注数据集中的部分或全部即第二参考标注数据引入到待标注数据中,以使目标标注员同时对待标注数据和第二参考标注数据进行标注,从而可以基于目标标注员对参考标注数据的实时标注结果即第二标注结果进一步考核其标注资格,即确定是否允许其继续执行该待标注任务。如此,通过在将待标注任务分配给标注员之前,先对其进行初始考核,在考核通过的情况下,允许该目标标注员正式执行该待标注任务,以确保选拔出标注水平较高的标注员执行标注任务,同时达到快速培养和筛选出优质的标注员的目的,进一步在经选拔出的标注员执行待标注任务时实时评估其标注水平的稳定性,从而可以提高数据标注质量及效率,以解决由于标注员的专业水平参差不齐导致数据标注质量和速度低下的问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本专利技术的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是本专利技术实施例中数据标注管理方法的流程示意图;图2是本专利技术实施例中数据标注管理装置的结构示意图;图3是本专利技术实施例中电子设备的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述本文档来自技高网...

【技术保护点】
1.一种数据标注管理方法,其特征在于,包括:/n根据待标注任务对应的待标注数据和目标标注员对应的历史标注行为数据,获取参考标注数据集;/n获取所述目标标注员对考核标注数据和分布在所述考核标注数据中的第一参考标注数据的第一标注结果,所述考核标注数据为所述待标注数据的一部分且具有正确的标注答案,所述第一参考标注数据属于所述参考标注数据集;/n若所述第一标注结果对应的正确率大于或等于预设正确率阈值,则根据所述目标标注员对已分布在所述待标注数据中的第二参考标注数据的第二标注结果,确定是否允许所述目标标注员继续执行所述待标注任务,所述第二参考标注数据属于所述参考标注数据集。/n

【技术特征摘要】
1.一种数据标注管理方法,其特征在于,包括:
根据待标注任务对应的待标注数据和目标标注员对应的历史标注行为数据,获取参考标注数据集;
获取所述目标标注员对考核标注数据和分布在所述考核标注数据中的第一参考标注数据的第一标注结果,所述考核标注数据为所述待标注数据的一部分且具有正确的标注答案,所述第一参考标注数据属于所述参考标注数据集;
若所述第一标注结果对应的正确率大于或等于预设正确率阈值,则根据所述目标标注员对已分布在所述待标注数据中的第二参考标注数据的第二标注结果,确定是否允许所述目标标注员继续执行所述待标注任务,所述第二参考标注数据属于所述参考标注数据集。


2.根据权利要求1所述方法,其特征在于,所述第一参考标注数据按预设规律分布在所述考核标注数据中,所述第一参考标注数据在所述考核标注数据中的分布密度与所述目标标注员对所述第一参考标注数据的标注实时正确率有关;
所述第二参考标注数据按所述预设规律分布在所述待标注数据中,所述第二参考标注数据在所述待标注数据中的分布密度与所述目标标注员对所述第二参考标注数据的标注实时正确率有关。


3.根据权利要求1或2所述方法,其特征在于,所述若所述第一标注结果对应的正确率大于或等于预设正确率阈值,则根据所述目标标注员对已分布在所述待标注数据中的第二参考标注数据的第二标注结果,确定是否允许所述目标标注员继续执行所述待标注任务,包括:
根据所述第一标注结果对应的正确率预估所述目标标注员对所述待标注任务的第一整体正确率;
若基于所述第二标注结果对应的正确率预估的所述目标标注员对所述待标注任务的第二整体正确率小于所述第一整体正确率,则禁止所述目标标注员继续执行所述待标注任务;
若所述第二整体正确率大于或等于所述第一整体正确率,则允许所述目标标注员继续执行所述待标注任务。


4.根据权利要求3所述方法,其特征在于,所述方法还包括:
根据所述第一标注结果对应的正确率确定所述目标标注员的标注等级;
在所述目标标注员执行完所述待标注任务的情况下,为所述目标标注员对所述待标注数据的第三标注结果匹配与所述标注等级对应的审核方式。


5.根据权利要求1或2所述方法,其特征在于,所述方法还包括:
若所述第一标注结果对应的正确率小于所述预设正确率阈值,则获取所述目标标注员对所述考核标注数据和分布在所述考核标注数据中的第三参考标注数据的第三标注结果;
将所述第三标注结果作为新的第一标注结果,以判断所述第一标注结果对应的正确率是否大于或等于所述预设正确率阈值;
重复上述过程,直至所述第一标注结果对应的正确率大于或等于所述预设正确率阈值或者获取到所述第一标注结果的累计次数大于或等于预设次数,所述预设次数与所述考核标注数据的难度匹配。


6.根据权利要求1或2所述方法,其特征在于,所述根据待标注任务对应的待标注数据和目标标注员的历史标注行为数据,获取参考标注数据集,包括:
根据所述...

【专利技术属性】
技术研发人员:刘权庆
申请(专利权)人:北京云聚智慧科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1