一种数据标注方法、系统和电子设备技术方案

技术编号:32891638 阅读:33 留言:0更新日期:2022-04-07 11:39
本说明书实施例公开了一种数据标注方法,包括以下步骤:创建训练集和测试集,将待标注数据归入测试集;提取测试集数据进行标注并放入训练集;设定训练参数,根据训练集数据启动AutoML模型训练;将AutoML训练模型应用于所述测试集,输出满足质检要求的标注数据。本发明专利技术还提供一种数据标注系统,能够用AutoML辅以人工迭代式提升标注质量,快速提升模型对剩余数据的精度,规避了AutoML可能精度不高的问题,使得需要人工标注的数据量大幅降低,极大减少了人力成本。了人力成本。了人力成本。

【技术实现步骤摘要】
一种数据标注方法、系统和电子设备


[0001]本说明书涉及信息技术
,尤其涉及一种自动化数据标注方法、系统和电子设备。

技术介绍

[0002]随着5G新基建的高速发展,通信网络越来越复杂,网络运维也逐渐从人工运维向着半自动化甚至全自动化的方向发展。这其中机器学习算法的作用越来越大。通常而言,有监督的机器学习算法效果更好,因此,需要大量的标注数据来训练、改进机器学习算法的性能。
[0003]当前进行网络运维数据的标注的方式普遍都比较原始,即以手工的方式进行标注。这主要是因为:不像图像、音视频领域的研究比较集中,沉淀了诸多的算法和工具,网络优化提效的课题多种多样,虽然在某些领域,例如异常检测,会有一些通用的界面化工具或者无监督算法辅助标注,但更多的情况下是需要研究人员根据情况手工标注或开发定制程序辅助。课题很多,人工标注工作量巨大,每次写特定程序来辅助也很麻烦。面对动辄几万至几百万记录的待标注数据量,给机器学习算法的探索带来了极大的困难和挑战,亟需一种方式或工具对数据标注进行提效。
[0004]另一方面,AutoML(Auto Machine Learning自动机器学习)是近年来兴起的将机器学习应用于实际问题的端到端流程自动化构建的方法,它组合了特征工程、模型选择和优化算法选择这三个构建机器学习所需的步骤,并自动对各部分进行优化,使得领域专家可以不依赖数据科学家,靠自己构建机器学习流程,具有较广泛的通用性。但同时因为通用,不会针对特定问题进行优化,往往无法得到最佳效果。

技术实现思路
/>[0005]本说明书实施例的目的是提供一种数据标注方法、系统和电子设备,以使用AutoML自动适配多样的课题场景,辅以人工迭代式提升标注质量,从而使得在大多数标注场景均可获得自动化程序的辅助,极大减少了人力成本。
[0006]为解决上述技术问题,本说明书实施例是这样实现的:第一方面,提出了一种数据标注方法,包括以下步骤:创建训练集和测试集,将待标注数据归入测试集;提取测试集数据进行标注并放入训练集;设定训练参数,根据训练集数据启动AutoML模型训练;将AutoML训练模型应用于所述测试集,输出满足质检要求的标注数据。
[0007]第二方面,提出了一种数据标注系统,包括用户处理模块、数据选取模块、质检模块、AutoML引擎以及可扩展模型库,其中:所述用户处理模块,用于提供用户可视化交互界面,方便用户处理和理解数据;所述数据选取模块,用于根据指定策略从全量大数据里选取部分数据,策略包括
随机抽取和按预测概率排序抽取;所述质检模块,用于提供用户抽检数据的置信度支持;所述可扩展模型库,用于提供AutoML可搜索的模型,可插件式扩展,增强AutoML引擎的能力。
[0008]第三方面,提出了一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行第一方面所述操作。
[0009]第四方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行第一方面所述操作。
[0010]由以上本说明书实施例提供的技术方案可见,利用AutoML适用场景广的特点,可以在大多数场景协助人工进行数据标注。同时让模型处理大部分数据,人工关注模型测不准的或模型预测有问题的少部分数据,规避了AutoML可能精度不高的问题。扬长避短使得需要人工标注的数据量大幅降低,极大减少了人的工作量。
附图说明
[0011]为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0012]图1是本说明书的一个实施例提供的本说明书实施例提供的一种数据标注系统结构示意图。
[0013]图2是本说明书的一个实施例提供的数据标注方法的步骤示意图。
[0014]图3是本说明书的一个实施例提供的电子设备的结构示意图。
具体实施方式
[0015]为了使本
的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
[0016]下面,结合图1所示,介绍本说明书实施例提供的一种数据标注系统,该数据标注系统可以包括:用户处理模块10、数据选取模块20、质检模块30、AutoML引擎40以及可扩展模型库50。其实,数据标注系统并不限于包括上述模块,还可以包括其它辅助实现数据标注的功能模块,在此不做一一描述。
[0017]<用户处理模块>所述用户处理模块10,用于提供用户可视化交互界面,方便用户处理和理解数据。
[0018]<数据选取模块>
所述数据选取模块20用于从全量大数据里按指定策略选取部分数据,策略包括随机抽取和按预测概率排序抽取。
[0019]<质检模块>质检模块30用于提供用户抽检数据的置信度支持。
[0020]<可扩展模型库>可扩展模型库40用于给AutoML提供可搜索的模型,可插件式扩展,以增强AutoML引擎的能力。
[0021]< AutoML引擎>AutoML引擎50用于接收训练数据自动化训练出机器学习模型,以及接收测试数据用指定模型给出推理结果。
[0022]通过上述技术方案,可用AutoML辅以人工迭代式提升标注质量;AutoML各个步骤都可以自动化,较为通用,每次迭代人工处理模型预测最差的数据,快速提升模型对剩余数据的精度;质检模块实时给出用户抽检的多个置信度区间,支撑用户的下一步动作。这样,利用AutoML适用场景广的特点,可以在大多数场景协助人工进行数据标注。同时让模型处理大部分数据,人工关注模型测不准的或模型预测有问题的少部分数据,规避了AutoML可能精度不高的问题。扬长避短使得需要人工标注的数据量大幅降低,极大减少了人的工作量。
[0023]参照图2所示,为本说明书实施例提供的数据标注方法的步骤示意图,该方法可以包括以下步骤:步骤101 :训练集为空,所有数据放入测试集。
[0024]可选地,训练集为空,所有数据放入测试集,具体包括以下操作之一或组合:接收信息操作:接收给定的一份待标注结构化数据及字段信息;创建集合操作:系统自动创建一个测试集,一个训练集,初始训练集为空,所有待标注数据默认归入测试集。
[0025]步骤102:对测试集本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据标注方法,其特征在于,包括以下步骤:创建训练集和测试集,将待标注数据归入测试集;提取测试集数据进行标注并放入训练集;设定训练参数,根据训练集数据启动AutoML模型训练;将AutoML训练模型应用于所述测试集,输出满足质检要求的标注数据。2.如权利要求1所述的数据标注方法,其特征在于,所述创建训练集和测试集,将待标注数据归入测试集的步骤,进一步包括,根据待标注结构化数据和字段信息,创建测试集和训练集;初始训练集为空,所有数据放入测试集。3.如权利要求1所述的数据标注方法,其特征在于,所述提取测试集数据进行标注并放入训练集的步骤,进一步包括,初次选取数据时,将从测试集中随机选取的数据进行人工标注后放入训练集;根据迭代中AutoML模型的预测概率进行排序,选取概率最小的数据进行人工标注,将修正后的数据放入训练集中。4.如权利要求1所述的数据标注方法,其特征在于,所述设定训练参数,根据训练集数据启动AutoML模型训练的步骤,进一步包括,指定标注结果有关的列和AutoML的模型搜索空间作为训练参数。5.如权利要求1所述的数据标注方法,其特征在于,所述将AutoML训练模型应用于所述测试集,输出满足质检要求的标注数据的步骤,进一步包括,获取AutoML训练模型应用于测试集的数据预测结果;判断预测结果是否满足质检要求;将满足质检要求的...

【专利技术属性】
技术研发人员:姚超
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1