一种基于机器学习的文本数据自动分类方法技术

技术编号：24683933 阅读：58 留言：0更新日期：2020-06-27 08:06

本发明专利技术提供一种基于机器学习的文本数据自动分类方法，涉及数据处理技术领域，包括以下步骤：S1：接收待处理的文本数据；S2：判断文本数据的类型是否为已知类型，若是则直接执行步骤S4；反之则执行步骤S3；S3：将数据进行聚类学习，形成至少一个聚类结果；S4：对聚类结果进行人工干预修正，形成至少一个分类结果及其分类模型；S5：获取文本数据分类结果。本发明专利技术一种基于机器学习的文本数据自动分类方法通过结合机器学习中的聚类和分类技术，再加以适当的人工干预，实现文本数据的自动分类，为数据资产管理和数据保护搭起坚实的基础工作。

An automatic text data classification method based on machine learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于机器学习的文本数据自动分类方法
本专利技术涉及数据处理
，尤其是，本专利技术涉及一种基于机器学习的文本数据自动分类方法。
技术介绍
近年来，全球数据泄漏事件频发。面对频发的数据安全事件和愈来愈严格的数据安全保护要求，企业都已认识到数据安全保护的重要性，安全的首要前提必然是明确我要保护什么。但企业首先面临的是不知道自己有哪些敏感数据、都是什么类型的等等难题，为了解决这些问题，我们必须对数据进行分类。做好数据的分类，企业才能够清晰地认识自身的数据，是企业管理并保护数据的前提。因此为了解决上述问题，设计一种合理的基于机器学习的文本数据自动分类方法对我们来说是很有必要的。
技术实现思路
本专利技术的目的在于提供一种通过结合机器学习中的聚类和分类技术，再加以适当的人工干预，实现文本数据的自动分类，为数据资产管理和数据保护搭起坚实的基础工作的基于机器学习的文本数据自动分类方法。为达到上述目的，本专利技术采用如下技术方案得以实现的：一种基于机器学习的文本数据自动分类方法，包括以下步骤：S1：接收待处理的文本数据；S2：判断文本数据的类型是否为已知类型，若是则直接执行步骤S4；反之则执行步骤S3；S3：将数据进行聚类学习，形成至少一个聚类结果；S4：对聚类结果进行人工干预修正，形成至少一个分类结果及其分类模型（分类器）；S5：获取文本数据分类结果。作为本专利技术的优选，执行步骤S1时，文本数据包括纯文本（txt）...

【技术保护点】
1.一种基于机器学习的文本数据自动分类方法，其特征在于，包括以下步骤：/nS1：接收待处理的文本数据；/nS2：判断文本数据的类型是否为已知类型，若是则直接执行步骤S4；反之则执行步骤S3；/nS3：将数据进行聚类学习，形成至少一个聚类结果；/nS4：对聚类结果进行人工干预修正，形成至少一个分类结果及其分类模型；/nS5：获取文本数据分类结果。/n

【技术特征摘要】
1.一种基于机器学习的文本数据自动分类方法，其特征在于，包括以下步骤：
S1：接收待处理的文本数据；
S2：判断文本数据的类型是否为已知类型，若是则直接执行步骤S4；反之则执行步骤S3；
S3：将数据进行聚类学习，形成至少一个聚类结果；
S4：对聚类结果进行人工干预修正，形成至少一个分类结果及其分类模型；
S5：获取文本数据分类结果。

2.根据权利要求1所述的一种基于机器学习的文本数据自动分类方法，其特征在于：
执行步骤S1时，文本数据包括txt文本数据、doc(x)文本数据、xls(x)文本数据以及pdf文本数据。

3.根据权利要求1所述的一种基于机器学习的文本数据自动分类方法，其特征在于：
执行步骤S2之前，将接收的文本数据转换成响应的文本类型。

4.根据权利要求1所述的一种基于机器学习的文本数据自动分类方法，其特征在于，步骤S3具体包括：
S31：抽取文本数据中的文本内容；
S32：对抽取的文本内容进行中文分词，剔除无用的停用词；
S33：使用K-Means聚类方法进行聚类。

5.根据权利要求4所述的一种基于机器学习的文本数据自动...

【专利技术属性】
技术研发人员：陈广辉，李蓓蓓，蔡翀，陈焰华，苏伟华，
申请(专利权)人：闪捷信息科技有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人