一种计算机辅助的数据人工标注与自动清洗系统技术方案

技术编号：29615656 阅读：17 留言：0更新日期：2021-08-10 18:31

本发明专利技术公开了一种计算机辅助的数据人工标注与自动清洗系统，在人工标注过程中引入计算机来辅助，并在数据清洗时借助计算机和算法进行噪声数据自动发现与清除。在计算机的辅助下，克服了由于数据量大、标注需参考的维度多，导致前后标注数据存在不一致性的缺点；利用计算机辅助标注，能够提高人工标注的效率；对人工标注结果进行自动化的数据清洗，有效去除噪声数据，提升了数据标注的精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种计算机辅助的数据人工标注与自动清洗系统
本专利技术涉及机器学习与人工智能
，具体为一种计算机辅助的数据人工标注与自动清洗系统。
技术介绍
随着大数据时代的到来，机器学习与人工智能被应用于越来越多的领域。在有监督学习中，首先要解决的就是高质量训练数据的获取问题，有了已标注的数据才能进行接下来的模型训练与预测。在某些业务领域，为了获取训练数据，不得不采用人工标注的方法，对训练数据进行打标。在人工标注数据时，如果标注的数据量很大，标注时需要参考的维度又多的话，由于人的记忆能力有限，且对多维度数据的分析与判别较弱，很可能会对类似的数据，前后标注的结果却大相径庭，产生数据不一致，降低了数据标注的质量，影响后期模型训练的效果。受标注人对业务领域的了解程度、对全局数据分布的把控以及标注时情绪的影响等，人工标注的结果可能会存在一定程度的噪声数据，这些数据不但无益于模型训练与预测精度，甚至可能会导致错误的模型训练结果，因此有必要对其进行清洗。针对上述机器学习里训练数据标注过程中的问题，目前尚无有效的方法来解决，因此人工标注的数据的准确性难以改善与提升，从而影响了最终训练出的模型的有效性。
技术实现思路
为了克服现有技术方案的不足，本专利技术提供一种计算机辅助的数据人工标注与自动清洗系统，能有效的解决
技术介绍
提出的问题。本专利技术解决其技术问题所采用的技术方案是：一种计算机辅助的数据人工标注与自动清洗系统，在人工标注过程中引入计算机来辅助，并在数据清洗时借助计算机和算法进行噪...

【技术保护点】
1.一种计算机辅助的数据人工标注与自动清洗系统，其特征在于：在人工标注过程中引入计算机来辅助，并在数据清洗时借助计算机和算法进行噪声数据自动发现与清除，包括以下步骤：/n步骤S1：确定待标注数据集合C

【技术特征摘要】
1.一种计算机辅助的数据人工标注与自动清洗系统，其特征在于：在人工标注过程中引入计算机来辅助，并在数据清洗时借助计算机和算法进行噪声数据自动发现与清除，包括以下步骤：
步骤S1：确定待标注数据集合C0，以及标注数据所使用的特征集合F；
步骤S2：利用特征集合F对数据集C0进行预处理，为C0中的每个样本s找出与其距离最近的M个样本；
步骤S3：在计算机的辅助下，对数据集C0中的每个样本进行人工标注，得到标注后的数据集C1；
步骤S4：利用计算机对C1进行处理，过滤噪声数据，得到清洗后的最终数据集C2。

2.根据权利要求1所述的一种计算机辅助的数据人工标注与自动清洗系统，其特征在于：在步骤S1中，在确定待标注的数据集C0之后，接着根据业务领域特点，确定人工标注时需要参考的所有特征集合F＝{f0,f1,f2,…,fn}，以及每个样本在各个特征上的取值，这些特征值将作为后续人工标注的依据，用于为每个样本进行准确标注。

3.根据权利要求1所述的一种计算机辅助的数据人工标注与自动清洗系统，其特征在于：在步骤S2中，根据业务领域与数据特点，选择一种距离度量算法，为每个样本计算出距其最近的M个样本标记为Pre-Refs。

4.根据权利要求1所述的一种计算机辅助的数据人工标注与自动清洗系统，其特征在于：在步骤S3中，对待标注数据集C0，取出待标注的样本及其特征值向量，结合标结果Pre-Refs对样本预标注为x...

【专利技术属性】
技术研发人员：程亮喜，程道雷，涂涛，
申请(专利权)人：上饶市中科院云计算中心大数据研究院，
类型：发明
国别省市：江西;36

全部详细技术资料下载我是这个专利的主人