文本分类方法和装置制造方法及图纸

技术编号：13991744 阅读：73 留言：0更新日期：2016-11-13 21:01

本发明专利技术涉及一种文本分类方法和装置，所述方法包括：获取待分类文本，所述待分类文本中包括特征词汇；获取分类模型以及所述分类模型对应的多个文本类别的特征权重向量；根据多个文本类别的特征权重向量计算所述特征词汇对应的文本类别的投票得分，得到投票得分最高的文本类别；将所述投票得分最高的文本类别确定为所述待分类文本对应的文本类别。采用本方法对文本进行实时在线分类时能够有效缓解服务器资源消耗。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机网络
，特别是涉及一种文本分类方法和装置。
技术介绍
随着互联网技术的发展，人们可以随时在网上发布信息。例如，在购物网站对已购买商品进行点评，在看电影后发表个人观后感，人们可以参考这些信息来进行购物或观影。通常这些信息的数量较多并且是以文本的形式存在。如果对这些信息进行分类，可以方便人们快速了解相关内容。传统的文本分类方式中，需要对文本进行分词处理，通过使用朴素贝叶斯或支持向量机等方法，在后台对大数据通过离线训练，得到分类模型。在后台对人们发布的信息进行离线分类，并且对分类结果进行存储。在前端发起文本类别的请求时，后台直接返回分类结果。由于后台离线训练和离线分类需要服务器支持，如果需要进行在线实时分类，则会消耗大量的服务器资源，给服务器造成一定负担。
技术实现思路
基于此，有必要针对上述技术问题，提供一种对文本进行实时在线分类时能够有效缓解服务器资源消耗的文本分类方法和装置。一种文本分类方法，所述方法包括：获取待分类文本，所述待分类文本中包括特征词汇；获取分类模型以及所述分类模型对应的多个文本类别的特征权重向量；根据多个文本类别的特征权重向量计算所述特征词汇对应的文本类别的投票得分，得到投票得分最高的文本类别；将所述投票得分最高的文本类别确定为所述待分类文本对应的文本类别。一种文本分类装置，所述装置包括：第一获取模，用于获取待分类文本，所述待分类文本中包括特征词汇；获取分类模型以及所述分类模型对应的多个文本类别的特征权重向量；分类模块，用于根据多个文本类别的特征权重向量计算所述特征词汇对应的文本类别的投票得分，得到投票得分最高的文本...

【技术保护点】
一种文本分类方法，所述方法包括：获取待分类文本，所述待分类文本中包括特征词汇；获取分类模型以及所述分类模型对应的多个文本类别的特征权重向量；根据多个文本类别的特征权重向量计算所述特征词汇对应的文本类别的投票得分，得到投票得分最高的文本类别；将所述投票得分最高的文本类别确定为所述待分类文本对应的文本类别。

【技术特征摘要】
1.一种文本分类方法，所述方法包括：获取待分类文本，所述待分类文本中包括特征词汇；获取分类模型以及所述分类模型对应的多个文本类别的特征权重向量；根据多个文本类别的特征权重向量计算所述特征词汇对应的文本类别的投票得分，得到投票得分最高的文本类别；将所述投票得分最高的文本类别确定为所述待分类文本对应的文本类别。2.根据权利要求1所述的方法，其特征在于，在所述获取待分类文本步骤之前，还包括：获取多个训练文本，所述训练文本包括多个字符或字符串；根据所述字符或字符串生成所述训练文本对应的文本向量；获取概率函数，利用所述文本向量和概率函数进行训练，得到多个文本类别的特征权重向量；根据多个特征权重向量生成所述分类模型。3.根据权利要求1或2所述的方法，其特征在于，所述分类模型的公式包括： c m a p = ...

【专利技术属性】
技术研发人员：梁锦全，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人