一种文本分类的方法及装置制造方法及图纸

技术编号:6315001 阅读:321 留言:0更新日期:2012-04-11 18:40
本申请公开了一种文本分类的方法,用于实现文本分类,简化分类操作,并提高文本分类的准确度。所述方法包括:对获得的文本内容进行分词,得到多个词汇;针对得到的多个词汇中的每一个词汇,确定该词汇在球面空间模型中的词汇向量;词汇的词汇向量包括该词汇在各类目上的词频值进行归一化后得到的归一化词频值;球面空间模型是以单位长度为半径的多维球体模型,球面空间的维度等于类目的个数,类目对应球面空间中的一个类目向量;针对每个类目,确定得到的多个词汇的词汇向量之和到该类目的类目向量的距离;将文本分入最短距离对应的类目。本申请还公开了用于实现所述方法的装置。

【技术实现步骤摘要】

本申请涉及计算机及通信领域,特别是涉及文本分类的方法及装置
技术介绍
文本分类是文本挖掘的一个重要内容,是指按照预先定义的主题类别,为文档集 合中的每个文档确定一个类别。通过自动文本分类系统把文档进行归类,可以帮助人们更 好地寻找需要的信息和知识。在人们看来,分类是对信息的一种最基本的认知形式。传统的 文献分类研究有着丰富的研究成果和相当的实用水平。但随着文本信息的快速增长,特别 是互联网(Internet)上在线文本信息的激增,文本自动分类已经成为处理和组织大量文 档数据的关键技术。现在,文本分类正在各个领域得到广泛的应用。但是,随着信息量日趋 丰富,人们对于内容搜索的准确率,查全率等方面的要求会越来越高,因而对文本分类技术 需求大为增加,如何构造一个有效的文本分类系统仍然是文本挖掘的一个主要研究方向。在自然语言处理领域,文本的表示主要采用向量空间模型(Vector spacemodel, VSM),这种方法认为每篇文本都包含一些用概念词表达的揭示其内容的独立属性,而每个 属性都可以看成是概念空间的一个维数,这些独立属性称为文本特征项,文本就可以表示 为这些特征项的集合。特征向量的相近程度常用夹角余弦来衡量。然后根据文本向量与候 选类别的特征向量的相近程度来判定文本的类别。现有技术中需要计算每个文本向量与候选类别的所有特征向量相近程度,每次计 算均需要采用夹角余弦来衡量,计算量非常大,并且现有技术对文本的语义没有任何约束, 其分类的准确度不是很好。
技术实现思路
本申请实施例提供一种文本分类的方法及装置,用于实现文本分类,简化分类操 作,并提高文本分类的准确度。一种文本分类的方法,包括以下步骤对获得的文本内容进行分词,得到多个词汇;针对得到的多个词汇中的每一个词汇,确定该词汇在球面空间模型中的词汇向 量;词汇的词汇向量包括该词汇在各类目上的词频值进行归一化后得到的归一化词频值; 球面空间模型是以单位长度为半径的多维球体模型,球面空间的维度等于类目的个数,类 目对应球面空间中的一个类目向量;针对每个类目,确定得到的多个词汇的词汇向量之和到该类目的类目向量的距 罔;将文本分入最短距离对应的类目。一种用于文本分类的装置,包括分词模块,用于对获得的文本内容进行分词,得到多个词汇;查询模块,用于针对得到的多个词汇中的每一个词汇,确定该词汇在球面空间模型中的词汇向量;词汇的词汇向量包括该词汇在各类目上的词频值进行归一化后得到的归 一化词频值;球面空间模型是以单位长度为半径的多维球体模型,球面空间的维度等于类 目的个数,类目对应球面空间中的一个类目向量;计算模块,针对每个类目,确定得到的多个词汇的词汇向量之和到该类目的类目 向量的距离;分类模块,用于将文本分入最短距离对应的类目。本申请实施例预先构造一球面空间模型,并基于该球面空间模型对文本进行分 类,在分类过程中,计算文本中各词汇的向量和与各类目向量的距离,从而确定文本应分入 的类目。本申请实施例实现了文本分类,并且相对于现有技术中的夹角余弦算法,计算量明 显减少。以及本申请实施例中球面空间模型以单位长度为半径,则一个词汇在各类目上的 归一化后的词汇向量的平方和也为单位长度,相当于将一个词汇的语义信息量等价为单位 长度,对语义信息量进行了约束,因此相对于现有技术可提高文本分类的准确度。附图说明图1为本申请实施例中装置的主要结构图;图2为本申请实施例中装置的详细结构图;图3为本申请实施例中球面空间的示意图;图4为本申请实施例中文本分类的主要方法流程图;图5为本申请实施例中通过距离和进行文本分类的方法流程图;图6为本申请实施例中通过词汇向量和进行文本分类的方法流程图。具体实施例方式本申请实施例预先构造一球面空间模型,并基于该球面空间模型对文本进行分 类,在分类过程中,计算文本中各词汇的向量和与各类目向量的距离,从而确定文本应分入 的类目。本申请实施例实现了文本分类,并且相对于现有技术中的夹角余弦算法,计算量明 显减少。以及本申请实施例中球面空间模型以单位长度为半径,则一个词汇在各类目上的 归一化后的词汇向量的平方和也为单位长度,相当于将一个词汇的语义信息量等价为单位 长度,对语义信息量进行了约束,因此相对于现有技术可提高文本分类的准确度。参见图1,本实施例中用于文本分类的装置包括分词模块101、查询模块102、计 算模块103和分类模块104。分词模块101用于对获得的文本内容进行分词,得到多个词汇。查询模块102用于针对得到的多个词汇中的一个词汇,确定该词汇在球面空间模 型中的词汇向量。词汇的词汇向量包括该词汇在各类目上的词频值进行归一化后得到的归 一化词频值;球面空间模型是以单位长度为半径的多维球体模型,球面空间的维度等于类 目的个数,类目对应球面空间中的一个类目向量。其中,单位长度可以为一常数,为了便于 计算,本实施例中球面空间模型的半径为1。文本中各词汇的向量和到各类目向量的距离为 直线距离或球面距离。计算模块103用于针对每个类目,确定对文本分词后得到的多个词汇的词汇向量 和到每个类目向量的距离。分类模块104用于将文本分入最短距离对应的类目。计算模块103在计算文本中词汇向量和到各类目向量的距离时,可将对文本分词 后得到的多个词汇的词汇向量在相应类目上的归一化词频值进行累加,得到归一化词汇向 量和。分类模块104将文本分入归一化词汇向量和的最大分量对应的类目。所述装置还包括接口模块105、过滤模块106、构造模块107和存储模块108,参 见图2所示。接口模块105用于从装置外部获得待分类的文本。过滤模块106用于在对文本分词得到多个词汇后,对得到的多个词汇进行过滤, 得到符合过滤条件的多个词汇。过滤条件有多种,如根据词汇在各类目上的词频值计算该 词汇的变异系数,然后过滤出变异系数大于预设的变异系数阈值(如0. 5)的词汇。通过变 异系数,可过滤掉在各类目中词频值变化不大的词(如你、我等在各类目的词频值基本一 致),而保留在各类目中词频值变化较明显的词(如专业名词,在与其专业有关类目中的词 频值明显高于其它类目下的词频值)。在各类目中词频值变化较明显的词,说明其主要出现 在某一个或某几个类目中,这样的词对文本分类的准确性做出较多的贡献,本实施例认为 这样的词属于优秀词,应通过过滤来筛选出优秀词。还可能有其它过滤条件,此处不一一列 举。构造模块107用于构造球面空间模型。存储模块108用于存储构造的球面空间模型,以及分类存储各文本等。构造模块107构造球面空间模型的过程如下设多维球面空间为S,S的维数与类目的总数相同。类目Ci是球面上的一个端点,同时对应球面空间中的一个类目向量,Ci = {0,......,0,1,0,......,0},相当于从球心(相当于原点)指向球面端点,该类目向量的第i个维度值是1,其余都是0。本实施例中, 假设任意一个词汇在任意两个类目Ci和Cj中出现的概率是概率独立的,则Ci和Cj在S 中必然是相互垂直的,推广到一般,所有类目向量{Ci}是两两垂直的。本实施例中第m个词汇的词汇向量Wm为S中的一个向量,m = 1. . .M,M为词汇的总数。Wm= {VI,V2,......,VN},Vi是在类目Ci上的归一化本文档来自技高网...

【技术保护点】
1.一种文本分类的方法,其特征在于,包括以下步骤:对获得的文本内容进行分词,得到多个词汇;针对得到的多个词汇中的一个词汇,确定该词汇在球面空间模型中的词汇向量,其中球面空间的维度等于类目的个数,类目对应球面空间中的一个类目向量;针对每个类目,确定得到的多个词汇的词汇向量之和到该类目的类目向量的距离;将文本分入最短距离对应的类目。

【技术特征摘要】

【专利技术属性】
技术研发人员:孙翔
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:KY[开曼群岛]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1