文本分类方法和装置制造方法及图纸

技术编号:13991744 阅读:61 留言:0更新日期:2016-11-13 21:01
本发明专利技术涉及一种文本分类方法和装置,所述方法包括:获取待分类文本,所述待分类文本中包括特征词汇;获取分类模型以及所述分类模型对应的多个文本类别的特征权重向量;根据多个文本类别的特征权重向量计算所述特征词汇对应的文本类别的投票得分,得到投票得分最高的文本类别;将所述投票得分最高的文本类别确定为所述待分类文本对应的文本类别。采用本方法对文本进行实时在线分类时能够有效缓解服务器资源消耗。

【技术实现步骤摘要】

本专利技术涉及计算机网络
,特别是涉及一种文本分类方法和装置
技术介绍
随着互联网技术的发展,人们可以随时在网上发布信息。例如,在购物网站对已购买商品进行点评,在看电影后发表个人观后感,人们可以参考这些信息来进行购物或观影。通常这些信息的数量较多并且是以文本的形式存在。如果对这些信息进行分类,可以方便人们快速了解相关内容。传统的文本分类方式中,需要对文本进行分词处理,通过使用朴素贝叶斯或支持向量机等方法,在后台对大数据通过离线训练,得到分类模型。在后台对人们发布的信息进行离线分类,并且对分类结果进行存储。在前端发起文本类别的请求时,后台直接返回分类结果。由于后台离线训练和离线分类需要服务器支持,如果需要进行在线实时分类,则会消耗大量的服务器资源,给服务器造成一定负担。
技术实现思路
基于此,有必要针对上述技术问题,提供一种对文本进行实时在线分类时能够有效缓解服务器资源消耗的文本分类方法和装置。一种文本分类方法,所述方法包括:获取待分类文本,所述待分类文本中包括特征词汇;获取分类模型以及所述分类模型对应的多个文本类别的特征权重向量;根据多个文本类别的特征权重向量计算所述特征词汇对应的文本类别的投票得分,得到投票得分最高的文本类别;将所述投票得分最高的文本类别确定为所述待分类文本对应的文本类别。一种文本分类装置,所述装置包括:第一获取模,用于获取待分类文本,所述待分类文本中包括特征词汇;获取分类模型以及所述分类模型对应的多个文本类别的特征权重向量;分类模块,用于根据多个文本类别的特征权重向量计算所述特征词汇对应的文本类别的投票得分,得到投票得分最高的文本类别;确定模块,用于将所述投票得分最高的文本类别确定为所述待分类文本对应的文本类别。上述文本分类方法和装置,由于分类模型以及所述分类模型对应的多个文本类别的特征权重向量是预先训练好的,在通过获取待分类文本来得到待分类文本中包括的特征词汇之后,可以根据多个文本类别的特征权重向量计算所述特征词汇对应的文本类别的投票得分,从而能够得到投票得分最高的文本类别。继而可以将所述投票得分最高的文本类别确定为所述待分类文本对应的文本类别。由于分类模型的算法是线性分类算法,算法复杂度低、运算速度快并且具有较高的分类精确率,因此能够对Web前端的文本进行实时在线分类并且能够有效缓解服务器资源消耗。一种文本分类方法,所述方法包括:接收终端发送的文本分类请求;根据所述文本分类请求获取分类模型;根据所述分类模型获取对应的文本类别特征权重;将所述文本类别特征权重返回至所述终端,以使得所述终端根据所述文本类别特征权重对待分类文本进行分类。一种文本分类装置,所述装置包括:接收模块,用于接收终端发送的文本分类请求;第二获取模块,用于根据所述文本分类请求获取分类模型;根据所述分类模型获取对应的文本类别特征权重;发送模块,用于将所述文本类别特征权重返回至所述终端,以使得所述终端根据所述文本类别特征权重对待分类文本进行分类。上述文本分类方法和装置,通过接收终端发送的文本分类请求,根据所述文本分类请求获取分类模型,继而根据所述分类模型获取对应的文本类别特征权重。终端接收到文本类别特征权重,从而能够根据所述文本类别特征权重对待分类文本进行分类。由于分类模型的训练过程不在终端本地进行,从而减少了终端进行样本训练的过程,进而有效提高了文本分类的效率。附图说明图1为一个实施例中文本分类方法的应用环境图;图2为一个实施例中文本分类方法的流程图;图3-1为一个实施例中文本分类前的页面示意图;图3-2为一个实施例中文本分类后的页面示意图;图4-1为一个实施例中当P(tj|cr)为定值的条件时函数f的形状示意图;图4-2为一个实施例中当P(tj|cnr)为定值的条件时函数f的形状示意图;图5为一个实施例中终端的结构示意图;图6为又一个实施例中文本分类方法的流程图;图7为一个实施例中文本分类装置的结构示意图;图8为又一个实施例中文本分类装置的结构示意图;图9为另一个实施例中文本分类装置的结构示意图;图10为再一个实施例中文本分类装置的结构示意图;图11为一个实施例中服务器的结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术实施例中所提供的文本分类方法可以应用于如图1所示的应用环境中。终端102和服务器104通过网络连接。终端102上运行了浏览器和浏览器插件,通过浏览器访问服务器104的多个页面,通过浏览器插件在页面中获取待分类文本。终端102通过遍历待分类文本的字符或字符串,得到待分类文本中的特征词汇。终端102获取分类模型以及分类模型对应的多个文本类别的特征权重向量。其中,分类模型可以在终端利用训练文本和概率函数进行训练得到。终端102根据多个文本类别的特征权重向量计算特征词汇对应的文本类别的投票得分,得到投票得分最高的文本类别,将投票得分最高的文本类别确定为待分类文本对应的文本类别,在终端102的页面中显示分类后的文本。在一个实施例中,如图2所示,提供了一种文本分类方法,以该方法应用于终端为例进行说明,具体包括:步骤202,获取待分类文本,待分类文本中包括特征词汇。文本可以是具有完整含义的一个句子或者多个句子的组合。文本可以是中文文本、英文文本或者中英文结合的文本。文本中包括停用词和特征词汇。其中,停用词(又称为非用词)是指在文本中起辅助作用的词,这些词与文本类别无关。特征词汇是指文本中除停用词外的单个字符或连续若干个字符的字符串。停用词包括助词、副词、连词、代词、指示词、介词等。中文停用词包括“的”、“特别”、“是”和“了”等。英文停用词包括“about”(关于)、“actually”(实际上)、“again”(又)和“although”(尽管)等。由于去掉停用词并不会对文本类别的判断造成影响,因此在文本分类过程中,可以去掉停用词。文本类别可以包括多种,例如,“建议”和“咨询”等。文本类别可以用类别集合来表示,例如,类别集合为C={c1,c2,...,ck本文档来自技高网...

【技术保护点】
一种文本分类方法,所述方法包括:获取待分类文本,所述待分类文本中包括特征词汇;获取分类模型以及所述分类模型对应的多个文本类别的特征权重向量;根据多个文本类别的特征权重向量计算所述特征词汇对应的文本类别的投票得分,得到投票得分最高的文本类别;将所述投票得分最高的文本类别确定为所述待分类文本对应的文本类别。

【技术特征摘要】
1.一种文本分类方法,所述方法包括:获取待分类文本,所述待分类文本中包括特征词汇;获取分类模型以及所述分类模型对应的多个文本类别的特征权重向量;根据多个文本类别的特征权重向量计算所述特征词汇对应的文本类别的投票得分,得到投票得分最高的文本类别;将所述投票得分最高的文本类别确定为所述待分类文本对应的文本类别。2.根据权利要求1所述的方法,其特征在于,在所述获取待分类文本步骤之前,还包括:获取多个训练文本,所述训练文本包括多个字符或字符串;根据所述字符或字符串生成所述训练文本对应的文本向量;获取概率函数,利用所述文本向量和概率函数进行训练,得到多个文本类别的特征权重向量;根据多个特征权重向量生成所述分类模型。3.根据权利要求1或2所述的方法,其特征在于,所述分类模型的公式包括: c m a p = ...

【专利技术属性】
技术研发人员:梁锦全
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1