一种计算机辅助的数据人工标注与自动清洗系统技术方案

技术编号:29615656 阅读:17 留言:0更新日期:2021-08-10 18:31
本发明专利技术公开了一种计算机辅助的数据人工标注与自动清洗系统,在人工标注过程中引入计算机来辅助,并在数据清洗时借助计算机和算法进行噪声数据自动发现与清除。在计算机的辅助下,克服了由于数据量大、标注需参考的维度多,导致前后标注数据存在不一致性的缺点;利用计算机辅助标注,能够提高人工标注的效率;对人工标注结果进行自动化的数据清洗,有效去除噪声数据,提升了数据标注的精度。

【技术实现步骤摘要】
一种计算机辅助的数据人工标注与自动清洗系统
本专利技术涉及机器学习与人工智能
,具体为一种计算机辅助的数据人工标注与自动清洗系统。
技术介绍
随着大数据时代的到来,机器学习与人工智能被应用于越来越多的领域。在有监督学习中,首先要解决的就是高质量训练数据的获取问题,有了已标注的数据才能进行接下来的模型训练与预测。在某些业务领域,为了获取训练数据,不得不采用人工标注的方法,对训练数据进行打标。在人工标注数据时,如果标注的数据量很大,标注时需要参考的维度又多的话,由于人的记忆能力有限,且对多维度数据的分析与判别较弱,很可能会对类似的数据,前后标注的结果却大相径庭,产生数据不一致,降低了数据标注的质量,影响后期模型训练的效果。受标注人对业务领域的了解程度、对全局数据分布的把控以及标注时情绪的影响等,人工标注的结果可能会存在一定程度的噪声数据,这些数据不但无益于模型训练与预测精度,甚至可能会导致错误的模型训练结果,因此有必要对其进行清洗。针对上述机器学习里训练数据标注过程中的问题,目前尚无有效的方法来解决,因此人工标注的数据的准确性难以改善与提升,从而影响了最终训练出的模型的有效性。
技术实现思路
为了克服现有技术方案的不足,本专利技术提供一种计算机辅助的数据人工标注与自动清洗系统,能有效的解决
技术介绍
提出的问题。本专利技术解决其技术问题所采用的技术方案是:一种计算机辅助的数据人工标注与自动清洗系统,在人工标注过程中引入计算机来辅助,并在数据清洗时借助计算机和算法进行噪声数据自动发现与清除,包括以下步骤:步骤S1:确定待标注数据集合C0,以及标注数据所使用的特征集合F;步骤S2:利用特征集合F对数据集C0进行预处理,为C0中的每个样本s找出与其距离最近的M个样本;步骤S3:在计算机的辅助下,对数据集C0中的每个样本进行人工标注,得到标注后的数据集C1;步骤S4:利用计算机对C1进行处理,过滤噪声数据,得到清洗后的最终数据集C2。进一步地,在步骤S1中,在确定待标注的数据集C0之后,接着根据业务领域特点,确定人工标注时需要参考的所有特征集合F={f0,f1,f2,…,fn},以及每个样本在各个特征上的取值,这些特征值将作为后续人工标注的依据,用于为每个样本进行准确标注。进一步地,在步骤S2中,根据业务领域与数据特点,选择一种距离度量算法,为每个样本计算出距其最近的M个样本标记为Pre-Refs。进一步地,在步骤S3中,对待标注数据集C0,取出待标注的样本及其特征值向量,结合标结果Pre-Refs对样本预标注为x,系统将计算与标注结果x最接近的N个已标注的样本,将其作为用户标注的进一步参考,以便用户确定最终标注的结果。进一步地,在步骤S4中,根据标注任务是打标签还是打分数,并结合业务领域与数据特点,选择一种相应的分类或回归算法用来作为接下来数据清洗之用,将数据集C1平均分成K份,对C1进行K折交叉验证,并根据验证结果,清洗掉其中的噪声数据。进一步地,距离度量算法包括有欧式距离、余弦距离等。进一步地,M的取值不小于3。进一步地,如果待标注数据集C0为空,则执行结束。进一步地,样本预标注x具体包括有打标签和打分数两种状态。进一步地,将数据集C1平均分成K份,对C1进行K折交叉验证,依次取出其中一份数据作为测试集,剩余的K-1份作为训练集,用K-1份数据来训练选定的算法,得到训练结果的模型,对剩余的K-1份数据,依次将其作为测试集重复操作。与现有技术相比,本专利技术的有益效果是:本专利技术在计算机的辅助下,克服了数据量大、标注需参考维度多的缺点,使得前后标注数据一致性;利用计算机辅助标注,能够提高人工标注的效率;对人工标注结果进行自动化的数据清洗,有效去除噪声数据,提升了数据标注的精度,有利于改善和提高数据的准备性。附图说明图1是本专利技术的总体处理流程图;图2是本专利技术在计算机辅助下的人工标注数据流程图;图3是本专利技术利用计算机与算法自动清洗数据的流程图;图4是本专利技术数据清洗过程中用户标注与模型预测结果的差值t的计算示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1-4所示,本专利技术提供了一种计算机辅助的数据人工标注与自动清洗系统,实际是应用于机器学习中训练数据人工标注的优化系统,本系统主要由两部分组成,分别是计算机辅助下的人工数据标注,以及利用计算机与算法自动清洗标注结果中的噪声数据,通过引入这两个部分,可以增强标注数据之间的一致性,清除人工错误产生的噪声数据,提高标注的准确性,保证数据质量,并且有助于提高标注的效率,包括以下步骤:步骤S1:确定待标注数据集合C0,以及标注数据所使用的特征集合F;步骤S2:利用特征集合F对数据集C0进行预处理,为C0中的每个样本s找出与其距离最近的M个样本;步骤S3:在计算机的辅助下,对数据集C0中的每个样本进行人工标注,得到标注后的数据集C1;步骤S4:利用计算机对C1进行处理,过滤噪声数据,得到清洗后的最终数据集C2。其中,在步骤S1中,在确定待标注的数据集C0之后,接着根据业务领域特点,确定人工标注时需要参考的所有特征集合F={f0,f1,f2,…,fn},以及每个样本在各个特征上的取值,这些特征值将作为后续人工标注的依据,用于为每个样本进行准确标注。在步骤S2中,根据业务领域与数据特点,选择一种距离度量算法,为每个样本计算出距其最近的M个样本标记为Pre-Refs,其中,距离度量算法包括有欧式距离、余弦距离等。在步骤S3中,对待标注数据集C0,取出待标注的样本及其特征值向量,结合标结果Pre-Refs对样本预标注为x,系统将计算与标注结果x最接近的N个已标注的样本,将其作为用户标注的进一步参考,以便用户确定最终标注的结果。进一步说明的是,对待标注数据集C0,重复执行如下流程:(1)如果待标注数据集C0为空,则执行结束;否则取出下一个待标注的样本s,及其特征值向量f;(2)系统从已标注的数据集C1中,找出与s距离最近的M个(如果存在)样本及其标注结果(记为Pre-Refs),展示给用户,作为用户标注的参考;(3)用户根据s的特征值向量f,结合参考的已标注样本Pre-Refs,对样本s预标注为x;(4)如果标注任务是给s打标签(即x是一个标签),则系统从已标注数据集C1中随机取出N(如N=3)个标注为x的样本及其标签(记为Post-Refs),作为与s的比较,给用户参考;如果标注任务是给s打分数(即x是一个分数),则系统从已标注数据集C1中取出N个标注分数与x最接近的样本及其分本文档来自技高网...

【技术保护点】
1.一种计算机辅助的数据人工标注与自动清洗系统,其特征在于:在人工标注过程中引入计算机来辅助,并在数据清洗时借助计算机和算法进行噪声数据自动发现与清除,包括以下步骤:/n步骤S1:确定待标注数据集合C

【技术特征摘要】
1.一种计算机辅助的数据人工标注与自动清洗系统,其特征在于:在人工标注过程中引入计算机来辅助,并在数据清洗时借助计算机和算法进行噪声数据自动发现与清除,包括以下步骤:
步骤S1:确定待标注数据集合C0,以及标注数据所使用的特征集合F;
步骤S2:利用特征集合F对数据集C0进行预处理,为C0中的每个样本s找出与其距离最近的M个样本;
步骤S3:在计算机的辅助下,对数据集C0中的每个样本进行人工标注,得到标注后的数据集C1;
步骤S4:利用计算机对C1进行处理,过滤噪声数据,得到清洗后的最终数据集C2。


2.根据权利要求1所述的一种计算机辅助的数据人工标注与自动清洗系统,其特征在于:在步骤S1中,在确定待标注的数据集C0之后,接着根据业务领域特点,确定人工标注时需要参考的所有特征集合F={f0,f1,f2,…,fn},以及每个样本在各个特征上的取值,这些特征值将作为后续人工标注的依据,用于为每个样本进行准确标注。


3.根据权利要求1所述的一种计算机辅助的数据人工标注与自动清洗系统,其特征在于:在步骤S2中,根据业务领域与数据特点,选择一种距离度量算法,为每个样本计算出距其最近的M个样本标记为Pre-Refs。


4.根据权利要求1所述的一种计算机辅助的数据人工标注与自动清洗系统,其特征在于:在步骤S3中,对待标注数据集C0,取出待标注的样本及其特征值向量,结合标结果Pre-Refs对样本预标注为x...

【专利技术属性】
技术研发人员:程亮喜程道雷涂涛
申请(专利权)人:上饶市中科院云计算中心大数据研究院
类型:发明
国别省市:江西;36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1