基于KMeans聚类的电子文档自动化分类方法技术

技术编号：42360593 阅读：21 留言：0更新日期：2024-08-16 14:44

本发明专利技术针对大量电子文档很难自动化地根据文档内容进行分类的问题，提出基于KMeans聚类的电子文档自动化分类方法，首先对电子文档读取内容后进行预处理，得到筛选后的关键词向量，接着根据主题语料库对文档进行主题标记，然后根据主题标记后的文档内容更新主题语料库，最后根据文档内容间的KMeans距离自动化分类所有电子文档，本发明专利技术能够帮助用户在不仔细阅读每份文档内容的情况下实现大量文档的自动化分类，后续可以帮助用户快速地找到自己感兴趣的文档，有利于对大量电子文档的管理，本发明专利技术在需要管理大量文档的金融、物流等行业具有重要的应用前景。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于kmeans聚类的电子文档自动化分类方法，能够自动化地提取出电子文档的内容特征，并根据相应的主题实现对电子文档的分类，涉及领域包括机器学习、文档分类。

技术介绍

1、随着文档电子化的飞速发展，越来越多的电子文档需要被有效地分类管理。当前许多单位内部电子文档繁多、数量庞大，文档的处理与分类工作量大，尤其是在金融、物流行业，箱单票据、文档单证种类繁多，对格式不一的电子文档进行准确的分类成了文档管理的难题，自动化地对大量电子文档进行处理与分类显得尤为迫切。

2、机器学习在数据分类上具有无可比拟的优势，在图像分类、文本识别等领域有着成熟的应用。kmeans聚类指k均值聚类算法，是一种无监督的机器学习方法，可以对无类别标记的数据进行分类。该算法是一种迭代求解的聚类分析无监督算法，其内容为，将数据分为k组，随机选取k个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本，聚类中心会根据聚类中现有的对象被重新计算，这个过程将不断重复直到满足某个终止条件，终止条件可以是数据分类的类别数。

3、在电子文档分类中，所针对的大量电子文档都是无标注的非结构化数据，不需要标注的聚类算法就非常的适用，而且这种方法可以很好地扩展到大量的文档样本，具有非常好的可扩展性。

4、对于电子文档的自动化分类方式，如果只是根据文档的格式进行分类，如txt、word、pdf等不同类型文档的后缀名，则远远

5、本专利技术通过对电子文档进行关键词提取，并根据主题语料库实现对文档的主题标记，能够在对大量文档完成主题标记后自动更新主题语料库，并采用kmeans聚类算法实现大量电子文档的自动化分类。本专利技术最后采用词云的方式展示电子文档的所有类别，用户可以更加方便地查看每个主题类别下的电子文档。

技术实现思路

1、本专利技术主要解决电子文档数量繁多很难进行自动化分类管理的问题，通过kmeans聚类方法自动地将电子文档根据内容进行主题分类，有助于用户快速找到感兴趣的文档，提升对电子文档的高效管理。

2、针对电子文档的自动化分类步骤如图1所示，主要分成四步：

3、步骤s1.针对待分类的电子文档进行预处理操作

4、该步骤主要对待分类的电子文档的内容进行读取并处理，根据停用词表与分词表快速过滤文档内容从而获得文档的关键词向量。

5、步骤s2.针对预处理后的电子文档进行主题标记操作

6、该步骤主要针对电子文档进行主题标记，通过读取电子文档的文本内容，并对文本内容进行分词，对得到的关键词中将不感兴趣的部分过滤掉，根据主题语料库对文档的关键词进行打分，用得分高的关键词对文档进行主题标记。

7、步骤s3.完成所有电子文档的主题标记后更新主题语料库

8、该步骤根据已经完成主题标记的电子文档内容进行活跃关键词的提取，并用这些活跃关键词来更新主题语料库，同时将主题语料库中不活跃的关键词给删除掉。

9、步骤s4.对所有电子文档采用kmeans聚类算法进行自动化分类

10、该步骤计算各份电子文档间的kmeans距离，以此来判断文档之间的相似程度，并将距离近的文档归到同一类别，实现对所有电子文档的自动化分类。

11、本专利技术能够实现中文电子文档的自动化分类，根据文档的关键词来计算文档间的kmeans距离，作为文档间相似性的计算标准，kmeans距离越近说明两个文档越相似，从而将内容主题相近的电子文档分到同一类中，能够帮助用户在不仔细阅读每份文档内容的情况下实现大量文档的自动化分类，后续可以帮助用户快速地找到自己感兴趣的文档，有利于对大量电子文档的管理。本专利技术在需要管理大量文档的金融、物流等行业具有重要的应用前景。

本文档来自技高网...

【技术保护点】

1.一种基于KMeans聚类的电子文档自动化分类方法，其特征在于：帮助用户在不仔细阅读每份文档内容的情况下实现大量文档的自动化分类，以及快速地找到自己感兴趣的文档，主要步骤包括：对电子文档读取内容后进行预处理，接着根据主题语料库对文档进行主题标记，然后根据主题标记后的文档内容更新主题语料库，最后根据文档内容间的KMeans距离自动化分类所有电子文档。

2.根据权利要求1所述的基于KMeans聚类的电子文档自动化分类方法，其特征在于，所述对电子文档读取内容后进行预处理，主要对待分类的电子文档的内容先根据停用词表与分词表快速过滤内容从而获得文档的关键词向量。

3.根据权利要求1所述的基于KMeans聚类的电子文档自动化分类方法，其特征在于，所述根据主题语料库对文档进行主题标记，通过读取电子文档的文本内容，并对文本内容进行分词，对得到的关键词中不感兴趣的部分过滤掉，根据主题语料库对文档的关键词进行打分，用得分高的关键词对文档进行主题标记。

4.根据权利要求1所述的基于KMeans聚类的电子文档自动化分类方法，其特征在于，所述根据主题标记后的文档内容更

5.根据权利要求1所述的基于KMeans聚类的电子文档自动化分类方法，其特征在于，所述根据文档内容间的KMeans距离自动化分类所有电子文档，主要计算各份电子文档间的KMeans距离，以此来判断文档之间的相似程度，并将距离近的文档归到同一类别，实现对所有电子文档的自动化分类。

...

【技术特征摘要】

1.一种基于kmeans聚类的电子文档自动化分类方法，其特征在于：帮助用户在不仔细阅读每份文档内容的情况下实现大量文档的自动化分类，以及快速地找到自己感兴趣的文档，主要步骤包括：对电子文档读取内容后进行预处理，接着根据主题语料库对文档进行主题标记，然后根据主题标记后的文档内容更新主题语料库，最后根据文档内容间的kmeans距离自动化分类所有电子文档。

2.根据权利要求1所述的基于kmeans聚类的电子文档自动化分类方法，其特征在于，所述对电子文档读取内容后进行预处理，主要对待分类的电子文档的内容先根据停用词表与分词表快速过滤内容从而获得文档的关键词向量。

3.根据权利要求1所述的基于kmeans聚类的电子文档自动化分类方法，其特征在于，所述根据主题语料库对文档进行主题标记，通过读取电子...

【专利技术属性】
技术研发人员：吴振东，王立成，张毅，安蔚钊，吴学光，周龙飞，
申请(专利权)人：中芯未来北京科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人