文本分类方法及服务器技术

技术编号：12405263 阅读：79 留言：0更新日期：2015-11-28 19:48

本申请涉及一种文本分类方法，首先对于获取到的待分类文本进行预处理。从而提取出其中的文本特征词，再根据文本特征词，采用通常的快速分类组件对所述待分类文本进行初步分类，以获取候选类别；之后，根据所述文本特征词，进行筛选，筛选出包括与所述文本特征词相似的文本内容对应的文本内容的集合，并在集合中，除去所述候选类别之外的类别对应的文本内容，最后根据所述文本特征词与最终的集合中的每条样本文本内容的相似度，确定所述待分类文本的目标类别。通过上述的方案，能够大量采用减少KNN算法对文本进行分类时所需要遍历的文本条目，降低计算复杂度和计算量，提高文本文类的效率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及互联网数据处理领域，具体涉及一种文本分类方法及服务器。
技术介绍
文本分类是文本挖掘的一个重要内容，是指按照预先定义的主题类别，为文档集合中的每个文档确定一个类别。通过自动文本分类系统把文档进行归类，可以帮助人们更好地寻找需要的信息和知识。在人们看来，分类是对信息的一种最基本的认知形式。传统的文献分类研究有着丰富的研究成果和相当的实用水平。但随着文本信息的快速增长，特别是互联网（Internet)上在线文本信息的激增，文本自动分类已经成为处理和组织大量文档数据的关键技术。现在，文本分类正在各个领域得到广泛的应用。例如，在互联网平台中，服务器可以根据用户通过客户端接收到的一句询问语言，对询问语言对应的文本信息进行分类，确定该文本信息对应的分类之后，依据相应的分类自动对用户的询问语言进行解答，推送相关的信息。现有技术中对文本进行分类的方法中，K最近邻节点算法（kNN， k-NearestNeighbor)，是准确度最高的一种方法，该种方法中，根据训练数据集合与待分类文本数据距离最近（最相似）的K个数据的类别来判断待分类文本所属的类别，其基本过程包括：计算待分类文本与训练集中每个样本的距离；从训练集中筛选出于待分类文本距离最接近的K个样本；计算K个样本归属类别的权重，将权重最高的类别作为待分类样本类另Ij。该种方法具有较高的准确度，但是，随着信息量日趋丰富，人们对于内容搜索的准确率，查全率等方面的要求会越来越高，训练集中包含的样本数目也非常巨大，通过遍历的方式与训练集中的每个样本进行相似度计算，需要消耗服务器...

【技术保护点】
一种文本分类方法，其特征在于，所述方法包括：对获取到的待分类文本进行预处理，以获取所述待分类文本的至少一个文本特征词；根据所述文本特征词，对所述待分类文本进行类别划分，以获取所述待分类文本的一定个数候选类别；根据所述文本特征词在预存储的倒排索引表中，确定第一文本内容标识集合，所述第一文本内容标识集合中包括多个与所述文本特征词相似的文本内容对应的文本内容标识，所述倒排索引表是根据最邻近结点算法预设置的训练数据集合构建的，其包含特征属性索引项和与每个特征属性对应的至少一个文本内容标识；根据所述第一文本内容标识集合，在所述预设置的训练数据集合中确定第一文本内容集合，所述训练数据集合中包括样本文本内容标识、样本文本内容以及每条所述样本文本内容对应的所属类别；在所述第一文本内容集合中，根据所述一定个数候选类别，选择N个候选类别对应的文本内容，来确定第二文本内容集合；根据所述文本特征词与所述第二文本集合中的每条文本内容的相似度，确定所述待分类文本的目标类别。

【技术特征摘要】

【专利技术属性】
技术研发人员：焦盼盼，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人