一种数据标注方法、装置及电子设备制造方法及图纸

技术编号:28321073 阅读:12 留言:0更新日期:2021-05-04 13:01
本发明专利技术公开了一种数据标注方法,包括:获取待标注的原始数据;创建用于对所述原始数据进行标注的多个标注任务,标注任务两两之间具有依赖关系;且任一标注任务执行完毕后输出数据标注结果,并将所述数据标注结果传递给与其存在依赖关系的下一标注任务,以便下一标注任务依赖所述数据标注结果执行数据标注;根据标注任务之间的依赖关系,依次执行每个标注任务,接收每个标注任务的数据标注结果,并根据依赖关系对数据标注结果进行汇总,得到标注后的数据。本发明专利技术还公开了一种数据标注装置及电子设备。

【技术实现步骤摘要】
一种数据标注方法、装置及电子设备
本专利技术涉及大数据
,尤其涉及一种数据标注方法、装置及电子设备。
技术介绍
近年来,大数据技术的迅猛发展,推动了社会的进步,但是,随着大量数据的出现,对于数据的人工标注,变得越来越困难。为此,相关技术中提出众包的概念。众包是指一个公司或机构把原本有公司内部员工执行的工作,以公开招募的形式外包给非特征的大众网络中的众包用户去执行的做法。随着众包概念的提出,互联网上出现了许多为众包活动提供支持的众包系统,众包系统利用互联网将发布任务的请求者同参与任务的工作者连接起来,极大地提高了众包活动中知识和劳动的交易效率。众包系统是一种集众人之力为文件做标注或修改标注,内部人员通过在众包系统上发布标注任务,由外部人员对数据进行标注,最后内部人员获取所需标注后的数据的系统。众包系统将大数据的标注外包给众包用户,集众人之力,降低了对数据的人工标注的难度。但是,相关技术中的众包系统在对发布的任务进行数据标注结果进行汇总时存在好费时间长、汇总效率低的问题。
技术实现思路
有鉴于此,本专利技术提供了一种数据标注方法、装置、电子设备及计算机可读存储介质,以解决相关技术中的众包系统在对发布的任务进行数据标注结果进行汇总时存在好费时间长、汇总效率低的问题。为实现上述专利技术目的,根据本专利技术第一个方面,提供了一种数据标注方法,包括:获取待标注的原始数据;创建用于对所述原始数据进行标注的多个标注任务,所述标注任务两两之间具有依赖关系;且任一标注任务执行完毕后输出数据标注结果,并将所述数据标注结果传递给与其存在依赖关系的下一标注任务,以便下一标注任务依赖所述数据标注结果执行数据标注;根据所述标注任务之间的依赖关系,依次执行每个所述标注任务;接收每个所述标注任务的数据标注结果,并根据所述依赖关系对所述数据标注结果进行汇总,得到标注后的数据。在一种可选方式中,在创建用于对所述原始数据进行标注的多个标注任务之前,所述方法还包括:确定所述原始数据的切分逻辑;根据所述切分逻辑确定待创建的标注任务的数量以及标注任务之间的依赖关系;和/或,在创建用于对所述原始数据进行标注的多个标注任务之后,所述方法还包括:配置多个所述标注任务的任务环境。在一种可选方式中,所述配置多个所述标注任务的任务环境,包括:为多个所述标注任务创建任务队列,并按照所述依赖关系将多个所述标注任务发布至所述任务队列中;和/或,配置所述标注任务对应的起始时间和截止时间,以便在所述起始时间和所述截止时间覆盖的时间段内执行所述标注任务;配置所述标注任务的关联用户ID,以便所述关联用户ID查看所述数据标注结果。在一种可选方式中,在依次执行每个所述标注任务之前,所述方法还还包括:配置每个所述标注任务的任务参数,所述任务参数包括以下至少一种:任务名称、任务标签、任务类型、任务对应的题目类型以及数据来源。在一种可选方式中,在将所述数据标注结果传递给与其存在依赖关系的下一标注任务之前,所述方法还包括:判断所述数据标注结果是否满足预置流转条件;如果是,则转入执行将所述数据标注结果传递给与其存在依赖关系的下一标注任务的步骤;否则,继续执行当前标注任务。在一种可选方式中,,所述判断所述数据标注结果是否满足预置流转条件,包括:获取所述数据标注结果中,标注结果相同的数据的占比;当所述占比达到第一预设阈值时,判断满足所述预置流转条件;否则,判断不满足所述预置流转条件;和/或,获取数据标注结果中,标注结果相同的数据的数量;当所述数量达到第二预设阈值时,判断满足所述预置流转条件;否则,判断不满足所述预置流转条件。在一种可选方式中,在将所述数据标注结果传递给与其存在依赖关系的下一标注任务之前,所述方法还包括:根据预置筛选条件对所述数据标注结果进行筛选,以便将经过筛选后的数据标注结果传递给与其存在依赖关系的下一标注任务。根据本专利技术第二个方面,提供了一种数据标注装置,包括:获取模块,用于获取待标注的原始数据;创建模块,用于创建用于对所述原始数据进行标注的多个标注任务,所述标注任务两两之间具有依赖关系;且任一标注任务执行完毕后输出数据标注结果,并将所述数据标注结果传递给与其存在依赖关系的下一标注任务,以便下一标注任务依赖所述数据标注结果执行数据标注;执行模块,用于根据所述标注任务之间的依赖关系,依次执行每个所述标注任务;接收模块,用于接收每个所述标注任务的数据标注结果,并根据所述依赖关系对所述标注结果进行汇总,得到标注后的数据。在一种可选方式中,所述装置,还包括:确定模块,用于确定所述原始数据的切分逻辑;所述确定模块,还用于根据所述切分逻辑确定待创建的标注任务的数量以及标注任务之间的依赖关系;和/或,所述装置,还包括:配置模块,用于在创建用于对所述原始数据进行标注的多个标注任务之后,配置多个所述标注任务的任务环境。在一种可选方式中,所述配置模块,用于为多个所述标注任务创建任务队列,并按照所述依赖关系将多个所述标注任务发布至所述任务队列中;和/或,配置所述标注任务对应的起始时间和截止时间,以便在所述起始时间和所述截止时间覆盖的时间段内执行所述标注任务;配置所述标注任务的关联用户ID,以便所述关联用户ID查看所述数据标注结果。在一种可选方式中,所述配置模块,还用于在依次执行每个所述标注任务之前,配置每个所述标注任务的任务参数,所述任务参数包括以下至少一种:任务名称、任务标签、任务类型、任务对应的题目类型以及数据来源。在一种可选方式中,所述装置,还包括:判断模块,用于在在将所述数据标注结果传递给与其存在依赖关系的下一标注任务之前,判断所述数据标注结果是否满足预置流转条件;所述执行模块,用于如果是,则转入执行将所述数据标注结果传递给与其存在依赖关系的下一标注任务的步骤;否则,继续执行当前标注任务。在一种可选方式中,所述获取模块,用于获取数据标注结果中,标注结果相同的数据的占比;所述判断模块,用于当所述占比达到第一预设阈值时,判断满足所述预置流转条件;否则,判断不满足所述预置流转条件;和/或,所述获取模块,用于获取所述数据标注结果中,标注结果相同的数据的数量;所述判断模块,用于当所述数量达到第二预设阈值时,判断满足所述预置流转条件;否则,判断不满足所述预置流转条件。在一种可选方式中,所述装置,还包括:筛选模块,用于根据预置筛选条件对所述数据标注结果进行筛选,以便将经过筛选后的数据标注结果传递给与其存在依赖关系的下一标注任务。根据本专利技术第三个方面,提供了一种电子设备,包括存储器、处理器和通讯总线;所述存储器与所述处理器通过所述通讯总线通讯连接;所述存储器中存储有计算机可执行指令,所述处理器用于执行所述计本文档来自技高网...

【技术保护点】
1.一种数据标注方法,其特征在于,包括:/n获取待标注的原始数据;/n创建用于对所述原始数据进行标注的多个标注任务,所述标注任务两两之间具有依赖关系,且任一标注任务执行完毕后输出数据标注结果,并将所述数据标注结果传递给与其存在依赖关系的下一标注任务,以便下一标注任务依赖所述数据标注结果执行数据标注;/n根据所述标注任务之间的依赖关系,依次执行每个所述标注任务;/n接收每个所述标注任务的数据标注结果,并根据所述依赖关系对所述数据标注结果进行汇总,得到标注后的数据。/n

【技术特征摘要】
1.一种数据标注方法,其特征在于,包括:
获取待标注的原始数据;
创建用于对所述原始数据进行标注的多个标注任务,所述标注任务两两之间具有依赖关系,且任一标注任务执行完毕后输出数据标注结果,并将所述数据标注结果传递给与其存在依赖关系的下一标注任务,以便下一标注任务依赖所述数据标注结果执行数据标注;
根据所述标注任务之间的依赖关系,依次执行每个所述标注任务;
接收每个所述标注任务的数据标注结果,并根据所述依赖关系对所述数据标注结果进行汇总,得到标注后的数据。


2.根据权利要求1所述的方法,其特征在于,在创建用于对所述原始数据进行标注的多个标注任务之前,所述方法还包括:
确定所述原始数据的切分逻辑;
根据所述切分逻辑确定待创建的标注任务的数量以及标注任务之间的依赖关系;和/或,
在创建用于对所述原始数据进行标注的多个标注任务之后,所述方法还包括:
配置多个所述标注任务的任务环境。


3.根据权利要求2所述的方法,其特征在于,所述配置多个所述标注任务的任务环境,包括:
为多个所述标注任务创建任务队列,并按照所述依赖关系将多个所述标注任务发布至所述任务队列中;和/或,
配置所述标注任务对应的起始时间和截止时间,以便在所述起始时间和所述截止时间覆盖的时间段内执行所述标注任务;
配置所述标注任务的关联用户ID,以便所述关联用户ID查看所述数据标注结果。


4.根据权利要求1所述的方法,其特征在于,在依次执行每个所述标注任务之前,所述方法还还包括:
配置每个所述标注任务的任务参数,所述任务参数包括以下至少一种:任务名称、任务标签、任务类型、任务对应的题目类型以及数据来源。


5.根据权利要求1所述的方法,其特征在于,在将所述数据标注结果传递给与其存在依赖关系的下一标注任务之前,所述方法还包括:
判断所述数据标注结果是否满足预置流转条件;
如果是,则转入执行将所述数据标注结果传递给与其存在...

【专利技术属性】
技术研发人员:林志强
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1