一种基于机器学习的数据分类方法及设备技术

技术编号：15618382 阅读：60 留言：0更新日期：2017-06-14 03:58

本发明专利技术提出了一种基于机器学习的数据分类方法，包括如下步骤：S11，基于学习数据确定每种数据对应的第一特征词群；S12，根据特征词对学习数据进行分类；S13，判断学习数据的分类是否正确，如果是，至步骤S15；如果否，调整第一特征词群，至步骤S12；S15，基于第一特征词群建立数据分类模型；一种基于机器学习的数据分类设备包括第一特征词群确定模块、第一数据分类模块、判断分类模块、第二特征词群确定模块、建模模块。本发明专利技术对文件内容进行切词处理，采用TFIDF算法，算出词的权重，然后计算文件相似度，将同类文件进行聚类。特征词提取。特征词不同于关键字，特征词更具代表性，更适合作为敏感信息，来与其他类加以区分。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于机器学习的数据分类方法及设备
本专利技术涉及数据分类领域，具体涉及一种基于机器学习的数据分类方法及设备。
技术介绍
随着关键数据在保障企业运营中的重要性不断上升，管理者对数据安全的关注也不断提高。与此同时，敏感文件外泄事件频繁发生，但单凭人为的去识别并归类敏感文件，显然是很难完成的。针对一批文件，单靠文件名称或文件类型是很难准确地区分哪些文件属于哪一类。对于敏感数据的提取，如果只靠人工方式，进行过滤筛选，再提取，显然是非常困难的。内部人员本身缺乏经验、动力和技术支持来完成数据梳理工作。现有的敏感数据发现技术架构一般都是要求用户先做好数据梳理工作，为各个敏感数据打上恰当的标签以后，再使用关键词和正则表达式去检测标签属性，从而完成数据分类。但是出于内部现有状况的角度出发，用户希望通过抓取敏感数据来推动数据梳理工作的进展。此外，还主要体现在以下几个方面：(1)聚类结果差强人意，当得到聚类结果后，往往都是直接以分出的结果为准，无法进行更为灵活的调整。而实际上有些词语具有多义性，在不同的文件中有不同的意思，包括成语，谚语等，这些词在切词过程中很有可能被分开，这就导致原本极具代表性的词变成了普普通通的词语，这就会严重影响聚类效果。(2)关键字过短，且在其他类别的文件中也有一定几率出现，这样就需要提供足够的关键字，才能作为这一类文挡的特征，而选取关键字的过程也不是很容易的，数量过多，就需要耗费相当多的时间。如果为节省时间而全选，那么其中就会有相当一部分词汇是多余的，在一定程度上会影响匹配的结果以及效率。如果只选取一部分词，就需要人工的到文章中去比对筛选，这种做法...
一种基于机器学习的数据分类方法及设备

【技术保护点】
一种基于机器学习的数据分类方法，其特征在于，包括如下步骤；S11，基于学习数据确定每种数据对应的第一特征词群；S12，根据第一特征词群对学习数据进行数据分类；S13，判断学习数据的分类是否正确，如果是，至步骤S15；如果否，调整第一特征词群，至步骤S12；S15，基于第一特征词群建立数据分类模型。

【技术特征摘要】
1.一种基于机器学习的数据分类方法，其特征在于，包括如下步骤；S11，基于学习数据确定每种数据对应的第一特征词群；S12，根据第一特征词群对学习数据进行数据分类；S13，判断学习数据的分类是否正确，如果是，至步骤S15；如果否，调整第一特征词群，至步骤S12；S15，基于第一特征词群建立数据分类模型。2.根据权利要求1所述的一种基于机器学习的数据分类方法，其特征在于，所述步骤S11包括：S111，从学习数据中的每种数据中读取N份数据，将其中的词汇按照权重排序；S112，将S111中排序前X位词汇选取为第一特征词群。3.根据权利要求2所述的一种基于机器学习的数据分类方法，其特征在于，所述步骤S112还包括用户根据需要对S111中排序前X位词汇进行筛选获得第一特征词群。4.根据权利要求1-3任意一项所述的一种基于机器学习的数据分类方法，其特征在于，当步骤S13判断学习数据分类正确时，至步骤S14，所述步骤S14包括，读取通过S12分好类的学习数据的内容，将每一类数据中的词汇按照权重排序，将排序后前Y位词汇选取为第二特征词群。5.根据权利要求4所述的一种基于机器学习的数据分类方法，其特征在于，用户根据需要对S14中排序前Y位词汇进行筛选获得第二特征词群。6.根据权利要求4或5所述的一种基于机器学习的数据分类方法，其特征在于，所述步骤S15为基于第二特征词群建立数据分类模型。7.一种基于机器学习的数据分类设备，其特征在于，包括：第一特征词群确...

【专利技术属性】
技术研发人员：李洋，张志勇，高政伟，
申请(专利权)人：上海上讯信息技术股份有限公司，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人