文本分类方法及服务器技术

技术编号:12405263 阅读:68 留言:0更新日期:2015-11-28 19:48
本申请涉及一种文本分类方法,首先对于获取到的待分类文本进行预处理。从而提取出其中的文本特征词,再根据文本特征词,采用通常的快速分类组件对所述待分类文本进行初步分类,以获取候选类别;之后,根据所述文本特征词,进行筛选,筛选出包括与所述文本特征词相似的文本内容对应的文本内容的集合,并在集合中,除去所述候选类别之外的类别对应的文本内容,最后根据所述文本特征词与最终的集合中的每条样本文本内容的相似度,确定所述待分类文本的目标类别。通过上述的方案,能够大量采用减少KNN算法对文本进行分类时所需要遍历的文本条目,降低计算复杂度和计算量,提高文本文类的效率。

【技术实现步骤摘要】

本申请涉及互联网数据处理领域,具体涉及一种文本分类方法及服务器
技术介绍
文本分类是文本挖掘的一个重要内容,是指按照预先定义的主题类别,为文档集 合中的每个文档确定一个类别。通过自动文本分类系统把文档进行归类,可以帮助人们更 好地寻找需要的信息和知识。在人们看来,分类是对信息的一种最基本的认知形式。传统的 文献分类研究有着丰富的研究成果和相当的实用水平。但随着文本信息的快速增长,特别 是互联网(Internet)上在线文本信息的激增,文本自动分类已经成为处理和组织大量文 档数据的关键技术。现在,文本分类正在各个领域得到广泛的应用。例如,在互联网平台中, 服务器可以根据用户通过客户端接收到的一句询问语言,对询问语言对应的文本信息进行 分类,确定该文本信息对应的分类之后,依据相应的分类自动对用户的询问语言进行解答, 推送相关的信息。 现有技术中对文本进行分类的方法中,K最近邻节点算法(kNN, k-NearestNeighbor),是准确度最高的一种方法,该种方法中,根据训练数据集合与待分类 文本数据距离最近(最相似)的K个数据的类别来判断待分类文本所属的类别,其基本过 程包括:计算待分类文本与训练集中每个样本的距离;从训练集中筛选出于待分类文本距 离最接近的K个样本;计算K个样本归属类别的权重,将权重最高的类别作为待分类样本类 另Ij。该种方法具有较高的准确度,但是,随着信息量日趋丰富,人们对于内容搜索的准确率, 查全率等方面的要求会越来越高,训练集中包含的样本数目也非常巨大,通过遍历的方式 与训练集中的每个样本进行相似度计算,需要消耗服务器大量的性能,并且计算速度较慢。 从而导致服务器有效资源被大量占用,计算时间过长导致向用户解答或者推送相关信息需 要耗费大量时间。 为此,在不影响分类准确度的情况下,提高服务器对文本进行分类的速度,是本申 请需要解决的问题。
技术实现思路
本申请的目的是提供一种文本分类方法,以实现在不影响分类准确度的情况下, 提高服务器对文本进行分类的效率。 -方面,本申请实施例提供了一种文本分类方法,所述方法包括: 对获取到的待分类文本进行预处理,以获取所述待分类文本的至少一个文本特征 词; 根据所述文本特征词,对所述待分类文本进行类别划分,以获取所述待分类文本 的一定个数候选类别; 根据所述文本特征词在预存储的倒排索引表中,确定第一文本内容标识集合,所 述第一文本内容标识集合中包括多个与所述文本特征词相似的文本内容对应的文本内容 标识,所述倒排索引表是根据最邻近结点算法预设置的训练数据集合构建的,其包含特征 属性索引项和与每个特征属性对应的至少一个文本内容标识; 根据所述第一文本内容标识集合,在所述预设置的训练数据集合中确定第一文本 内容集合,所述训练数据集合中包括样本文本内容标识、样本文本内容以及每条所述样本 文本内容对应的所属类别; 在所述第一文本内容集合中,根据所述一定个数候选类别,选择N个候选类别对 应的文本内容,来确定第二文本内容集合; 根据所述文本特征词与所述第二文本集合中的每条文本内容的相似度,确定所述 待分类文本的目标类别。 另一方面,本申请实施例提供了一种服务器,所述服务器包括: 预处理单元,用于对获取到的待分类文本进行预处理,以获取所述待分类文本的 至少一个文本特征词; 获取单元,用于根据所述文本特征词,对所述待分类文本进行类别划分,以获取所 述待分类文本的一定个数候选类别; 第一确定单元,用于根据所述文本特征词在预存储的倒排索引表中,确定第一文 本内容标识集合,所述第一文本内容标识集合中包括多个与所述文本特征词相似的文本内 容对应的文本内容标识,所述倒排索引表是根据最邻近结点算法预设置的训练数据集合构 建的,其包含特征属性索引项和与每个特征属性对应的至少一个文本内容标识; 第二确定单元,用于根据所述第一文本内容标识集合,在所述预设置的训练数据 集合中确定第一文本内容集合,所述训练数据集合中包括样本文本内容标识、样本文本内 容以及每条所述样本文本内容对应的所属类别; 第三确定单元,用于在所述第一文本内容集合中,根据所述一定个数候选类别,选 择N个候选类别对应的文本内容,来确定第二文本内容集合; 第四确定单元,用于根据所述文本特征词与所述第二文本集合中的每条文本内容 的相似度,确定所述待分类文本的目标类别。 本申请实施例提供的文本分类方法中,首先对于获取到的待分类文本进行预处 理。从而提取出其中的文本特征词,再根据文本特征词,采用通常的快速分类组件对所述待 分类文本进行初步分类,以获取候选类别;之后,根据所述文本特征词,进行筛选,筛选出包 括与所述文本特征词相似的文本内容对应的文本内容的集合,并在集合中,除去所述候选 类别之外的类别对应的文本内容,最后根据所述文本特征词与最终的集合中的每条样本文 本内容的相似度,确定所述待分类文本的目标类别。通过上述的方案,能够大量采用减少 KNN算法对文本进行分类时所需要遍历的文本条目,降低计算复杂度和计算量,提高文本文 类的效率。进一步,导致服务器有效资源被少量占用,计算迅速,从而向用户解答或者推送 相关信息耗费少量时间。【附图说明】 图1为本申请实施例提供的应用场景的示例性的架构图; 图2为本申请实施例提供的文本分类方法的一种实施例的流程图; 图3是本申请实施例提供的文本分类方法的另一种实施例的流程图; 图4是本申请实施例提供的文本分类方法的又一种实施例的流程图; 图5是本申请实施例提供的文本分类方法的又一种实施例的流程图; 图6是本申请实施例提供的服务器的一种实施例的结构图。【具体实施方式】 为了使本领域技术人员更好地理解本申请中的技术方案,下面将结合本申请实施 例中的附图,对本申请实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是 本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员 所获得的所有其他实施例,都应当属于本申请保护的范围。 在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制 本申请。在本申请实施例和所附权利要求书中所使用的单数形式的"一种"、"所述"和"该" 也旨在包括多数形式,除非上下文清楚地表示其他含义。 应当理解,尽管在本申请实施例中可能采用术语第一、第二等来描述各种数据,但 这些数据不应限于这些术语。这些术语仅用来将数据彼此区分开。 在互联网领域中,经常需要面对用户咨询、投诉、建议等情况。当互联网具有相当 大的用户群体时,需要处理的类似问题会非常大。对于此类问题,如果都由人工进行处理, 将消耗极大的人力,并且受限于此,也不能及时对于类似的问题进行处理。为此,在互联网 领域中,通常会建立文本内容的训练集合,其中,通常包括文本内容项和归属类别项。在获 取到用户发出的问题之后,通过匹配算法,在训练集合中与大量的样本文本内容逐条匹配, 查询最匹配的样本,在查找到最匹配的样本之后,选在该样本的所属类目,并根据所属类 目,对用户提出的问题进行处理,从而节约人工。 例如,图1所示的应用架构中,用户10和20分别可以通过计算机上的客户端登陆 互联网平台的服务器30,对互联网平台进行投诉或者建议。例如有,在淘宝、支付宝等平台,本文档来自技高网
...

【技术保护点】
一种文本分类方法,其特征在于,所述方法包括:对获取到的待分类文本进行预处理,以获取所述待分类文本的至少一个文本特征词;根据所述文本特征词,对所述待分类文本进行类别划分,以获取所述待分类文本的一定个数候选类别;根据所述文本特征词在预存储的倒排索引表中,确定第一文本内容标识集合,所述第一文本内容标识集合中包括多个与所述文本特征词相似的文本内容对应的文本内容标识,所述倒排索引表是根据最邻近结点算法预设置的训练数据集合构建的,其包含特征属性索引项和与每个特征属性对应的至少一个文本内容标识;根据所述第一文本内容标识集合,在所述预设置的训练数据集合中确定第一文本内容集合,所述训练数据集合中包括样本文本内容标识、样本文本内容以及每条所述样本文本内容对应的所属类别;在所述第一文本内容集合中,根据所述一定个数候选类别,选择N个候选类别对应的文本内容,来确定第二文本内容集合;根据所述文本特征词与所述第二文本集合中的每条文本内容的相似度,确定所述待分类文本的目标类别。

【技术特征摘要】

【专利技术属性】
技术研发人员:焦盼盼
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1