一种数据标注的方法及装置制造方法及图纸

技术编号:24035713 阅读:19 留言:0更新日期:2020-05-07 01:50
本发明专利技术公开了一种数据标注的方法及装置,涉及计算机技术领域。该方法的一具体实施方式包括:根据第一数据集训练生成标注模型,第一数据集中的第一样本数据具有一个或多个标签;获取待标注的第二数据集,利用标注模型对第二数据集进行标注,以利用标注模型确定第二数据集中的第二样本数据的标签、以及标签在第二样本数据中的位置,并对位置进行标记,得到标注后的第三数据集;校验第三数据集中的第三样本数据,确定第三数据集中的第三样本数据的标签相比于真值标签的匹配度;对匹配度小于第一阈值的第三样本数据进行校正,以得到第二数据集对应的标注结果。该实施方式节省了数据标注的时间和人力,提高了数据标注的效率。

A method and device of data annotation

【技术实现步骤摘要】
一种数据标注的方法及装置
本专利技术涉及计算机
,尤其涉及一种数据标注的方法及装置。
技术介绍
自然语言处理的基础是标注后的数据集,也就是按照已具备的知识标记和分类后的数据的集合。目前,数据的标注通常采用人工标注的方式,例如,标注人员根据已有的数据标签列表,对待标注的文档进行标注。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:采用人工标注的方式需标注人员在理解待标注文档的文义后,再从数据标签列表的大量标签中选择合适的标签,以利用选择的标签对待标注文档进行标注,此方式消耗的时间和人力均较大,从而导致标注效率较低。
技术实现思路
有鉴于此,本专利技术实施例提供一种数据标注的方法及装置,能够节省数据标注的时间和人力,提高数据标注的效率。为实现上述目的,根据本专利技术实施例的一个方面,提供了一种数据标注的方法。本专利技术实施例的一种数据标注的方法包括:根据第一数据集训练生成标注模型,所述第一数据集中的第一样本数据具有一个或多个标签;获取待标注的第二数据集,利用所述标注模型对所述第二数据集进行标注,以利用所述标注模型确定所述第二数据集中的第二样本数据的标签、以及所述标签在所述第二样本数据中的位置,并对所述位置进行标记,得到标注后的第三数据集;校验所述第三数据集中的第三样本数据,确定所述第三数据集中的第三样本数据的标签相比于真值标签的匹配度;对所述匹配度小于第一阈值的第三样本数据进行校正,以得到所述第二数据集对应的标注结果。可选地,所述对所述匹配度小于第一阈值的第三样本数据进行校正,包括:根据所述真值标签,对所述匹配度小于第一阈值且大于第二阈值的第三样本数据进行校正;其中,所述第二阈值小于所述第一阈值。可选地,还包括:根据校正后的第三样本数据以及所述第三数据集中的所述匹配度不小于所述第一阈值的第三样本数据,更新所述标注模型。可选地,所述对所述匹配度小于第一阈值的第三样本数据进行校正,包括:利用更新后的模型,对所述匹配度小于所述第二阈值的第三样本数据进行校正。可选地,所述对所述匹配度小于第一阈值的第三样本数据进行校正,包括:当所述匹配度小于第一阈值的第三样本数据为多个时,根据多个所述第三样本数据之间的相似度,按序对所述第三样本数据进行校正。根据本专利技术实施例的第二方面,提供了一种数据标注的装置,包括:模型训练模块、标注模块和校正模块;其中,所述模型训练模块,用于根据第一数据集训练生成标注模型,所述第一数据集中的第一样本数据具有一个或多个标签;所述标注模块,用于获取待标注的第二数据集,利用所述标注模型对所述第二数据集进行标注,以利用所述标注模型确定所述第二数据集中的第二样本数据的标签、以及所述标签在所述第二样本数据中的位置,并对所述位置进行标记,得到标注后的第三数据集;所述校正模块,用于校验所述第三数据集中的第三样本数据,确定所述第三数据集中的第三样本数据的标签相比于真值标签的匹配度,对所述匹配度小于第一阈值的第三样本数据进行校正,以得到所述第二数据集对应的标注结果。可选地,所述校正模块,用于根据所述真值标签,对所述匹配度小于第一阈值且大于第二阈值的第三样本数据进行校正;其中,所述第二阈值小于所述第一阈值。可选地,所述模型训练模块,进一步用于根据校正后的第三样本数据以及所述第三数据集中的所述匹配度不小于所述第一阈值的第三样本数据,更新所述标注模型。可选地,所述标注模块,用于利用更新后的模型,对所述匹配度小于所述第二阈值的第三样本数据进行校正。可选地,所述校正模块,用于当所述匹配度小于第一阈值的第三样本数据为多个时,根据多个所述第三样本数据之间的相似度,按序对所述第三样本数据进行校正。为实现上述目的,根据本专利技术实施例的又一方面,提供了一种数据标注的电子设备。本专利技术实施例的一种数据标注的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术实施例的一种数据标注的方法。为实现上述目的,根据本专利技术实施例的再一方面,提供了一种计算机可读存储介质。本专利技术实施例的一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本专利技术实施例的一种数据标注的方法。上述专利技术中的一个实施例具有如下优点或有益效果:根据具有一个或多个标签的第一样本数据组成的第一数据集训练生成标注模型,然后利用标注模型对待标注的第二样本数据进行标注,标注时可确定第二样本数据的标签以及标签在第二样本数据中的位置,且标注时不仅对这些标注出相应标签,还对标签所在的相应位置进行标记,由此,当对标注后的第三样本数据进行校正时,可直接检查标记位置,以校验第三样本数据相比于真值标签的匹配度,然后对匹配度小于第一阈值的第三样本数据进行校正。由于利用标注模型对第二样本数据进行标注时,标注出了标签对应的位置,则校正过程中可直接查看标记位置,节省了校正所消耗的人力和时间,从而提高标注效率。进一步地,利用标注模型可准确标注出第二样本数据的全部或部分标签,而无需用户逐个每一个第二样本数据的每一个标签进行标注,由此也节省了标注所消耗的人力和时间,从而进一步提高了标注效率。上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。附图说明附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中:图1是根据本专利技术实施例的一种数据标注的方法的主要步骤的示意图;图2是根据本专利技术实施例的另一种数据标注的方法的主要步骤的示意图;图3是根据本专利技术实施例的一种数据标注的装置的主要模块的示意图;图4是本专利技术实施例可以应用于其中的示例性系统架构图;图5是适于用来实现本专利技术实施例的终端设备或服务器的计算机系统的结构示意图。具体实施方式以下结合附图对本专利技术的示范性实施例做出说明,其中包括本专利技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本专利技术的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。需要指出的是,在不冲突的情况下,本专利技术的实施例以及实施例中的技术特征可以相互结合。如图1所示,本专利技术实施例提供了一种数据标注的方法,该方法可以包括以下步骤:步骤S101:根据第一数据集训练生成标注模型,所述第一数据集中的第一样本数据具有一个或多个标签。在此步骤中,利用已具有一个或多个标签的第一样本数据组成的第一数据集训练生成标注模型,为了便于描述,将第一数据集命名为T0,训练生成的标注模型为M0。其中,第一样本数据的标签可以为采用人工方式标注出的真值标签。步骤S102:获取待标注的第本文档来自技高网...

【技术保护点】
1.一种数据标注的方法,其特征在于,包括:/n根据第一数据集训练生成标注模型,所述第一数据集中的第一样本数据具有一个或多个标签;/n获取待标注的第二数据集,利用所述标注模型对所述第二数据集进行标注,以利用所述标注模型确定所述第二数据集中的第二样本数据的标签、以及所述标签在所述第二样本数据中的位置,并对所述位置进行标记,得到标注后的第三数据集;/n校验所述第三数据集中的第三样本数据,确定所述第三数据集中的第三样本数据的标签相比于真值标签的匹配度;/n对所述匹配度小于第一阈值的第三样本数据进行校正,以得到所述第二数据集对应的标注结果。/n

【技术特征摘要】
1.一种数据标注的方法,其特征在于,包括:
根据第一数据集训练生成标注模型,所述第一数据集中的第一样本数据具有一个或多个标签;
获取待标注的第二数据集,利用所述标注模型对所述第二数据集进行标注,以利用所述标注模型确定所述第二数据集中的第二样本数据的标签、以及所述标签在所述第二样本数据中的位置,并对所述位置进行标记,得到标注后的第三数据集;
校验所述第三数据集中的第三样本数据,确定所述第三数据集中的第三样本数据的标签相比于真值标签的匹配度;
对所述匹配度小于第一阈值的第三样本数据进行校正,以得到所述第二数据集对应的标注结果。


2.根据权利要求1所述的方法,其特征在于,所述对所述匹配度小于第一阈值的第三样本数据进行校正,包括:
根据所述真值标签,对所述匹配度小于第一阈值且大于第二阈值的第三样本数据进行校正;其中,所述第二阈值小于所述第一阈值。


3.根据权利要求2所述的方法,其特征在于,还包括:
根据校正后的第三样本数据以及所述第三数据集中的所述匹配度不小于所述第一阈值的第三样本数据,更新所述标注模型。


4.根据权利要求3所述的方法,其特征在于,所述对所述匹配度小于第一阈值的第三样本数据进行校正,包括:
利用更新后的模型,对所述匹配度小于所述第二阈值的第三样本数据进行校正;
和/或,
所述对所述匹配度小于第一阈值的第三样本数据进行校正,包括:
当所述匹配度小于第一阈值的第三样本数据为多个时,根据多个所述第三样本数据之间的相似度,按序对所述第三样本数据进行校正。


5.一种数据标注的装置,其特征在于,包括:模型训练模块、标注模块和校正模块;其中,
所述模型训练模块,用于根据第一数据集训练生成标注模型,所述第一数据集中的第一样本数据...

【专利技术属性】
技术研发人员:郭泽颖林廷懋钟伊妮柯颖陈铭新李晓敦赵世辉
申请(专利权)人:中国建设银行股份有限公司建信金融科技有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1