本发明专利技术提出了一种基于机器学习的数据分类方法,包括如下步骤:S11,基于学习数据确定每种数据对应的第一特征词群;S12,根据特征词对学习数据进行分类;S13,判断学习数据的分类是否正确,如果是,至步骤S15;如果否,调整第一特征词群,至步骤S12;S15,基于第一特征词群建立数据分类模型;一种基于机器学习的数据分类设备包括第一特征词群确定模块、第一数据分类模块、判断分类模块、第二特征词群确定模块、建模模块。本发明专利技术对文件内容进行切词处理,采用TFIDF算法,算出词的权重,然后计算文件相似度,将同类文件进行聚类。特征词提取。特征词不同于关键字,特征词更具代表性,更适合作为敏感信息,来与其他类加以区分。
【技术实现步骤摘要】
一种基于机器学习的数据分类方法及设备
本专利技术涉及数据分类领域,具体涉及一种基于机器学习的数据分类方法及设备。
技术介绍
随着关键数据在保障企业运营中的重要性不断上升,管理者对数据安全的关注也不断提高。与此同时,敏感文件外泄事件频繁发生,但单凭人为的去识别并归类敏感文件,显然是很难完成的。针对一批文件,单靠文件名称或文件类型是很难准确地区分哪些文件属于哪一类。对于敏感数据的提取,如果只靠人工方式,进行过滤筛选,再提取,显然是非常困难的。内部人员本身缺乏经验、动力和技术支持来完成数据梳理工作。现有的敏感数据发现技术架构一般都是要求用户先做好数据梳理工作,为各个敏感数据打上恰当的标签以后,再使用关键词和正则表达式去检测标签属性,从而完成数据分类。但是出于内部现有状况的角度出发,用户希望通过抓取敏感数据来推动数据梳理工作的进展。此外,还主要体现在以下几个方面:(1)聚类结果差强人意,当得到聚类结果后,往往都是直接以分出的结果为准,无法进行更为灵活的调整。而实际上有些词语具有多义性,在不同的文件中有不同的意思,包括成语,谚语等,这些词在切词过程中很有可能被分开,这就导致原本极具代表性的词变成了普普通通的词语,这就会严重影响聚类效果。(2)关键字过短,且在其他类别的文件中也有一定几率出现,这样就需要提供足够的关键字,才能作为这一类文挡的特征,而选取关键字的过程也不是很容易的,数量过多,就需要耗费相当多的时间。如果为节省时间而全选,那么其中就会有相当一部分词汇是多余的,在一定程度上会影响匹配的结果以及效率。如果只选取一部分词,就需要人工的到文章中去比对筛选,这种做法显然也是不可取的。(3)流程过于复杂,操作起来不够连贯,上手难,在整个操作的过程中很可能漏掉某个环节,或是浪费掉不必要的时间。基于以上分析,要想解决上述问题,不仅要能够人为的干预聚类结果,还要提高关键字的代表性,使之能够更好的作为具有代表性的敏感词汇,且整个过程简单易懂,操作简单,并且可手动调整聚类的结果。本专利技术正是基于对以上要素的综合考虑,而设计的。
技术实现思路
为了解决上述问题,本专利技术提供了一种基于机器学习的数据分类方法及设备。本专利技术提供的一种基于机器学习的数据分类方法及设备,通过机器学习建立数据分类模型,根据数据分类模型对待分类数据读取分类,数据分类模型基于特征词建立,特征词不同于关键字,特征词更具代表性,更适合作为敏感信息,来与其他类加以区分。本专利技术采用的技术方案如下:一种基于机器学习的数据分类方法,包括如下步骤;S11,基于学习数据确定每种数据对应的第一特征词群;S12,根据第一特征词群对学习数据进行数据分类;S13,判断学习数据的分类是否正确,如果是,至步骤S15;如果否,调整第一特征词群,至步骤S12;S15,基于第一特征词群建立数据分类模型。上述的一种基于机器学习的数据分类方法,其中,所述步骤S11包括:S111,从学习数据中的每种数据中读取N份数据,将其中的词汇按照权重排序;S112,将S111中排序前X位词汇选取为第一特征词群。上述的一种基于机器学习的数据分类方法,其中,所述步骤S112还包括用户根据需要对S111中排序前X位词汇进行筛选获得第一特征词群。上述的一种基于机器学习的数据分类方法,其中,当步骤S13判断学习数据分类正确时,至步骤S14,所述步骤S14包括,读取通过S12分好类的学习数据的内容,将每一类数据中的词汇按照权重排序,将排序后前Y位词汇选取为第二特征词群。上述的一种基于机器学习的数据分类方法,其中,用户根据需要对S14中排序前Y位词汇进行筛选获得第二特征词群。上述的一种基于机器学习的数据分类方法,其中,所述步骤S15为基于第二特征词群建立数据分类模型。一种基于机器学习的数据分类设备,包括:第一特征词群确定模块:用于基于学习数据确定每种数据对应的第一特征词群;第一数据分类模块:用于根据第一特征词群对学习数据进行数据分类;判断分类模块:用于判断学习数据的分类是否正确,如果是,至建模模块;如果否,调整第一特征词群,至第一数据分类模块;建模模块:用于基于第一特征词群建立数据分类模型。上述的一种基于机器学习的数据分类设备,其中,所述数据分类模块包括:权重排序单元:用于从学习数据中的每种数据中读取N份数据,将其中的词汇按照权重排序;第一特征词群选取单元:用于将权重排序单元中排序前X位词汇选取为第一特征词群。上述的一种基于机器学习的数据分类设备,其中,所述第一特征词群选取单元还用于用户根据需要将权重排序单元排序前X位词汇进行筛选获得第一特征词群。上述的一种基于机器学习的数据分类设备,其中,当判断分类模块判断学习数据分类正确时,至第二特征词群确定模块,所述第二特征词群确定模块用于读取第一数据分类模块分好类的学习数据的内容,将每一类数据中的词汇按照权重排序,将排序后前Y位词汇选取为第二特征词群。上述的一种基于机器学习的数据分类设备,其中,用户根据需要对第二特征词群确定模块中排序前Y位词汇进行筛选获得第二特征词群。上述的一种基于机器学习的数据分类设备,其中,所述建模模块用于基于第二特征词群建立数据分类模型。本专利技术主要采用TFIDF算法以及贝叶斯算法,整个流程操作简单,支持自定义词典,聚类效果好,可以进行手动纠正,特征词代表性强,整体效率高。本专利技术会对指定范围内的文件进行聚类处理,用户可根据实际聚类结果进行动态调整,调整分类个数和文件归属类别。调整完毕可针对某一类提取关键词,用户可通过手动方式筛选关键词作为敏感信息,然后根据选取的关键词生成模型。这个模型将被用作文档分类,通过模型中记录的敏感信息将匹配的文件进行汇总,还会将汇总后的文件直接定位到敏感文件所在位置,用户既可以跟踪到指定目录取收集敏感文件,亦可以将所选文件作导出处理。本专利技术是通过对文本内容的分析,来确定文件类型的,同时还可借助自定义词汇来优化关键词的提取效果,帮助企业有针对性的对关键数据进行聚类和分类。用户还可实时对学习文件内容进行检查,因为只靠文件名是无法确定文件类型的,因此聚类/分类结果以实际文件内容为准。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一种基于机器学习的数据分类方法的实施例一的流程图;图2是本专利技术一种基于机器学习的数据分类方法的实施例二的流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例一如图1所示,一种基于机器学习的数据分类方法,通过机器学习建立数据分类模型,根据数据分类模型对待分类数据读取分类,数据分类模型基于特征词建立,对文档进行聚类处理。对文件内容进行切词处理,采用TFIDF算法,算出词的权重,然后计算文件相似度,将同类文件进行聚类。实施例一方法包括如下步骤:S11,基于学习数本文档来自技高网...
【技术保护点】
一种基于机器学习的数据分类方法,其特征在于,包括如下步骤;S11,基于学习数据确定每种数据对应的第一特征词群;S12,根据第一特征词群对学习数据进行数据分类;S13,判断学习数据的分类是否正确,如果是,至步骤S15;如果否,调整第一特征词群,至步骤S12;S15,基于第一特征词群建立数据分类模型。
【技术特征摘要】
1.一种基于机器学习的数据分类方法,其特征在于,包括如下步骤;S11,基于学习数据确定每种数据对应的第一特征词群;S12,根据第一特征词群对学习数据进行数据分类;S13,判断学习数据的分类是否正确,如果是,至步骤S15;如果否,调整第一特征词群,至步骤S12;S15,基于第一特征词群建立数据分类模型。2.根据权利要求1所述的一种基于机器学习的数据分类方法,其特征在于,所述步骤S11包括:S111,从学习数据中的每种数据中读取N份数据,将其中的词汇按照权重排序;S112,将S111中排序前X位词汇选取为第一特征词群。3.根据权利要求2所述的一种基于机器学习的数据分类方法,其特征在于,所述步骤S112还包括用户根据需要对S111中排序前X位词汇进行筛选获得第一特征词群。4.根据权利要求1-3任意一项所述的一种基于机器学习的数据分类方法,其特征在于,当步骤S13判断学习数据分类正确时,至步骤S14,所述步骤S14包括,读取通过S12分好类的学习数据的内容,将每一类数据中的词汇按照权重排序,将排序后前Y位词汇选取为第二特征词群。5.根据权利要求4所述的一种基于机器学习的数据分类方法,其特征在于,用户根据需要对S14中排序前Y位词汇进行筛选获得第二特征词群。6.根据权利要求4或5所述的一种基于机器学习的数据分类方法,其特征在于,所述步骤S15为基于第二特征词群建立数据分类模型。7.一种基于机器学习的数据分类设备,其特征在于,包括:第一特征词群确...
【专利技术属性】
技术研发人员:李洋,张志勇,高政伟,
申请(专利权)人:上海上讯信息技术股份有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。