数据标注方法、装置、介质以及电子设备制造方法及图纸

技术编号:23984624 阅读:27 留言:0更新日期:2020-04-29 12:56
公开了一种数据标注方法、装置、介质以及电子设备。其中的数据标注方法包括:获取当前标注工程的待标注文本;根据所述当前标注工程所包含的所有标注动作,为所述待标注文本提供所述所有标注动作各自对应的动作描述信息以及所述所有标注动作各自对应的标签描述信息;根据针对所述所有标注动作各自的动作描述信息以及所述标签描述信息的标注操作,确定所述待标注文本的标签信息;根据所述待标注文本和所述标签信息,生成至少一条标注数据。本公开提供的技术方案有利于提高标注效率和标注准确性,并且有利于降低标注成本。

Data labeling methods, devices, media and electronic equipment

【技术实现步骤摘要】
数据标注方法、装置、介质以及电子设备
本公开涉及数据标注技术,尤其是一种数据标注方法、数据标注装置、存储介质以及电子设备。
技术介绍
随着AI(ArtificialIntelligence,人工智能)技术的发展,房产领域、医疗领域以及智能驾驶等越来越多的领域使用了AI技术。在AI技术应用在不同的领域时,往往需要利用相应领域的标注数据对相应的神经网络模型进行训练。如何便捷的获得相应领域的标注数据,是一个值得关注的技术问题。
技术实现思路
为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种数据标注方法、数据标注装置、存储介质以及电子设备。根据本公开实施例的一方面,提供一种数据标注方法,该方法包括:获取当前标注工程的待标注文本;根据所述当前标注工程所包含的所有标注动作,为所述待标注文本提供所述所有标注动作各自对应的动作描述信息以及所述所有标注动作各自对应的标签描述信息;根据针对所述所有标注动作各自的动作描述信息以及所述标签描述信息的标注操作,确定所述待标注文本的标签信息;根据所述待标注文本和所述标签信息,生成至少一条标注数据。在本公开一实施方式中,所述当前标注工程所包含的所有标注动作包括:基于文本分类任务的标注动作;和/或,基于文本序列任务的标注动作;其中,所述基于文本分类任务的标注动作包括:基于单一分类维度的文本分类任务的一个标注动作、或者基于多分类维度的文本分类任务的多个标注动作。在本公开又一实施方式中,所述根据所述当前标注工程所包含的所有标注动作,为所述待标注文本提供所述所有标注动作各自对应的动作描述信息以及所述所有标注动作各自对应的标签描述信息,包括:对于当前标注工程所包含的任一标注动作,根据该标注动作对应的所有标签描述信息,确定该标注动作对应的缺省标签信息,并为所述待标注文本提供该标注动作对应的动作描述信息、该标注动作对应的所有标签描述信息以及该标注动作对应的缺省标签信息。在本公开再一实施方式中,所述根据该标注动作对应的所有标签描述信息,确定该标注动作对应的缺省标签信息,包括:将所述待标注文本提供给该标注动作对应的标签预测模型,经由该标注动作对应的标签预测模型对所述待标注文本进行标签预测处理;根据该标注动作对应的标签预测模型输出的标签预测结果,获得该标注动作对应的缺省标签信息。在本公开再一实施方式中,所述标签预测模型包括:分类预测模型,或者,文本序列模型;所述将所述待标注文本提供给该标注动作对应的标签预测模型,经由该标注动作对应的标签预测模型对所述待标注文本进行标签预测处理,包括:对于基于文本分类任务的标注动作,将所述待标注文本提供给该标注动作对应的各分类预测模型,经由各分类预测模型对所述待标注文本进行分类预测处理;和/或,对于基于文本序列任务的标注动作,将所述待标注文本提供给文本序列模型,经由所述文本序列模型对所述待标注文本进行划词位置预测处理。在本公开再一实施方式中,所述为所述待标注文本提供该标注动作对应的动作描述信息、该标注动作对应的所有标签描述信息以及该标注动作对应的缺省标签信息,包括:对于基于文本分类任务的标注动作,显示所述待标注文本、以及至少一个信息块,并将每一个信息块中的与缺省标签信息对应的标签描述信息设置为被选择状态;其中,一个信息块包括:一个标注动作对应的动作描述信息以及该标注动作对应的所有标签描述信息;对于基于文本序列的标注动作,显示所述待标注文本、以及与该标注动作对应的动作描述信息以及该标注动作对应的所有标签描述信息,并根据所述缺省标签信息在所述待标注文本的相应位置处划词。在本公开再一实施方式中,所述信息块中的所有标签描述信息的排列顺序包括:基于哈夫曼树的排列顺序。在本公开再一实施方式中,所述根据针对所述所有标注动作各自的动作描述信息以及所述标签描述信息的标注操作,确定所述待标注文本的标签信息,包括:在所述标注操作取消与所述缺省标签信息对应的标签描述信息的被选择状态的情况下,根据所述标注操作设置的被选择状态的标签描述信息,确定所述待标注文本的标签信息;在所述标注操作维持与所述缺省标签信息对应的标签描述信息的被选择状态的情况下,将所述缺省标签信息作为所述待标注文本的标签信息;在所述标注操作改变所述划词的情况下,根据改变后的划词,确定所述待标注文本的标签信息;在所述标注操作维持所述划词的情况下,将所述缺省标签信息作为所述待标注文本的标签信息。在本公开再一实施方式中,所述方法还包括:训练所述标签预测模型的步骤;所述训练所述标签预测模型的步骤包括:从预定数据集中获取多条文本;将所述获取到的多条文本分别提供给待训练动作预测模型,以经由所述待训练动作预测模型对所述各条文本进标注行动作预测处理,获得预测出的标注动作;将所述多条文本分别提供给所述预测出的标注动作各自对应的待训练标签预测模型,以经由所述待训练标签预测模型对相应文本进行标签预测处理;根据所述标签预测结果与相应文本的标签信息的差异,调整所述待训练标签预测模型的模型参数。在本公开再一实施方式中,所述从预定数据集中获取多条文本,包括:将所述预定数据集中的各条文本分别提供给待训练动作预测模型,以经由所述待训练动作预测模型对所述各条文本进标注行动作预测处理,获得预测出的标注动作;将所述各条文本分别提供给所述预测出的标注动作各自对应的待训练标签预测模型,以经由所述待训练标签预测模型对相应文本进行标签预测处理;根据所述待训练标签预测模型的隐层的输出,对所述各条文本进行筛选,获得所述多条文本。在本公开再一实施方式中,所述训练所述标签预测模型的步骤还包括:利用所述待训练动作预测模型的隐层针对输入文本的输出,对所述待训练标签预测模型的模型参数进行初始化。在本公开再一实施方式中,所述训练所述标签预测模型的步骤还包括:根据所述待训练标签预测模型的当前模型参数及其权值、以及所述待训练动作预测模型的隐层针对所述多条文本的输出,对所述待训练标签预测模型的模型参数进行调整。根据本公开实施例的另一个方面,提供了一种数据标注装置,包括:获取文本模块,用于获取当前标注工程的待标注文本;提供信息模块,用于根据所述当前标注工程所包含的所有标注动作,为所述待标注文本提供所述所有标注动作各自对应的动作描述信息以及所述所有标注动作各自对应的标签描述信息;确定标签模块,用于根据针对所述所有标注动作各自的动作描述信息以及所述标签描述信息的标注操作,确定所述待标注文本的标签信息;生成标注模块,用于根据所述待标注文本和所述标签信息,生成至少一条标注数据。在本公开一实施方式中,所述当前标注工程所包含的所有标注动作,包括:基于文本分类任务的标注动作;和/或,基于文本序列任务的标注动作;其中,所述基于文本分类任务的标注动作包括:基于单一分类维度的文本分类任务的一个标注动作、或者基于多分类维度的文本分类任务的多个标注动作。在本公开又一实施方式中,所述提供信息模块具体用于:对于当前标注工程所包含的任一标注动作,根据该标注动作对应的所有标签描述信息,确定该标注动作对应的缺省标签信本文档来自技高网...

【技术保护点】
1.一种数据标注方法,包括:/n获取当前标注工程的待标注文本;/n根据所述当前标注工程所包含的所有标注动作,为所述待标注文本提供所述所有标注动作各自对应的动作描述信息以及所述所有标注动作各自对应的标签描述信息;/n根据针对所述所有标注动作各自的动作描述信息以及所述标签描述信息的标注操作,确定所述待标注文本的标签信息;/n根据所述待标注文本和所述标签信息,生成至少一条标注数据。/n

【技术特征摘要】
1.一种数据标注方法,包括:
获取当前标注工程的待标注文本;
根据所述当前标注工程所包含的所有标注动作,为所述待标注文本提供所述所有标注动作各自对应的动作描述信息以及所述所有标注动作各自对应的标签描述信息;
根据针对所述所有标注动作各自的动作描述信息以及所述标签描述信息的标注操作,确定所述待标注文本的标签信息;
根据所述待标注文本和所述标签信息,生成至少一条标注数据。


2.根据权利要求1所述的方法,其中,所述当前标注工程所包含的所有标注动作,包括:
基于文本分类任务的标注动作;和/或
基于文本序列任务的标注动作;
其中,所述基于文本分类任务的标注动作包括:基于单一分类维度的文本分类任务的一个标注动作、或者基于多分类维度的文本分类任务的多个标注动作。


3.根据权利要求2所述的方法,其中,所述根据所述当前标注工程所包含的所有标注动作,为所述待标注文本提供所述所有标注动作各自对应的动作描述信息以及所述所有标注动作各自对应的标签描述信息,包括:
对于当前标注工程所包含的任一标注动作,根据该标注动作对应的所有标签描述信息,确定该标注动作对应的缺省标签信息,并为所述待标注文本提供该标注动作对应的动作描述信息、该标注动作对应的所有标签描述信息以及该标注动作对应的缺省标签信息。


4.根据权利要求3所述的方法,其中,所述根据该标注动作对应的所有标签描述信息,确定该标注动作对应的缺省标签信息,包括:
将所述待标注文本提供给该标注动作对应的标签预测模型,经由该标注动作对应的标签预测模型对所述待标注文本进行标签预测处理;
根据该标注动作对应的标签预测模型输出的标签预测结果,获得该标注动作对应的缺省标签信息。


5.根据权利要求4所述的方法,其中,所述标签预测模型包括:分类预测模型,或者,文本序列模型;所述将所述待标注文本提供给该标注动作对应的标签预测模型,经由该标注动作对应的标签预测模型对所述待标注文本进行标签预测处理,包括:
对于基于文本分类任务的标注动作,将所述待标注文本提供给该标注...

【专利技术属性】
技术研发人员:朱成浩翟喜梅田育珍徐宁李鑫
申请(专利权)人:贝壳技术有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1