本发明专利技术公开了一种文本分类方法、装置、设备及介质,用于解决现有文本分类时,文本分类的准确率较低的技术问题。由于本发明专利技术实施例在第一文本类别与第二文本类别不同时,选择的待识别文本数据的目标类别为文本分类模型识别准确率较高的文本类别、或者词频统计算法识别准确率较高的文本类别,从而可以提高文本分类的准确率。的准确率。的准确率。
【技术实现步骤摘要】
一种文本分类方法、装置、设备及介质
[0001]本专利技术涉及文本分类
,尤其涉及一种文本分类方法、装置、设备及介质。
技术介绍
[0002]近年来,随着互联网的普及化和网络社会的形成,舆情分析逐渐成为政企部门进行各类决策制定的重要参考。对于智慧城市建设而言,要构建有效的城市治理平台,提升社会化治理水平,需要构建舆情分析系统,从网络公开信息中获取民意趋势,从大规模数据中挖掘民众的诉求,从宏观上感知民众的所想所需,为有关部门近一段时期工作成效提供评价参考,为下一步政策制定或完善提供科学有效的决策依据。
[0003]舆情数据大都以文本数据形式为主,因此需要基于自然语言处理技术等对数据进行文本挖掘,对文本数据进行文本分类,进而对舆情数据进行分析。
[0004]以下是几种现有方案进行文本分类的过程:
[0005]方案一、通过贝叶斯文本分类模型进行文本分类,具体为:使用改进的隐马尔可夫分词方法对文本分词后,结合Boosting算法生成动态停用词词库,通过贝叶斯文本分类模型对测试数据集分类。
[0006]但当数据集与贝叶斯文本分类模型的假设条件差距较大时,会使文本分类的准确率受到一定影响,不能保证文本分类的准确率。
[0007]方案二、通过深度神经网络模型进行文本分类,具体为:通过一种能够结合局部语义信息的特征提取框架,以及融合视觉与文本特征的多模态情感分析方法,该方法采用图像描述的方法提取图像特征,采用多层卷积的方式提取文本特征,最后训练分类器结合提取到的图像特征和文本特征进行决策。
[0008]深度神经网络模型在进行模型训练时,需要文本数据的数据量规模较大,在实际使用过程中,经常难以达到其数据量规模的要求,从而使文本分类的准确率受到一定影响。
技术实现思路
[0009]本专利技术实施例提供了一种文本分类方法、装置、设备及介质,用以解决现有文本分类时,文本分类的准确率较低的技术问题。
[0010]本专利技术的一方面提供了一种文本分类方法,所述方法包括:
[0011]通过预先训练完成的文本分类模型,获取待识别文本数据对应的第一文本类别;并通过词频统计算法,获取所述待识别文本数据对应的第二文本类别;
[0012]在所述第一文本类别与所述第二文本类别相同时,将所述第一文本类别或所述第二文本类别作为所述待识别文本数据的目标类别;
[0013]在所述第一文本类别与所述第二文本类别不同时,若所述第一文本类别为所述文本分类模型识别准确率较高的文本类别时,则将所述第一文本类别作为所述待识别文本数据的目标类别;若所述第二文本类别为所述词频统计算法识别准确率较高的文本类别时,则将所述第二文本类别作为所述待识别文本数据的目标类别。
[0014]进一步地,训练所述文本分类模型的过程包括:
[0015]获取训练集中任一训练文本数据,所述训练文本数据对应有人工标注的第一文本类别标识信息;
[0016]通过原始文本分类模型,获取所述训练文本数据对应的第二文本类别标识信息;
[0017]根据所述第一文本类别标识信息及所述第二文本类别标识信息,对所述原始文本分类模型进行训练,得到所述训练完成的文本分类模型。
[0018]进一步地,确定所述文本分类模型识别准确率较高的类别包括:
[0019]针对任一文本类别,根据该文本类别的任一训练文本数据的第一文本类别标识信息,及所述训练完成的文本分类模型确定的第一识别文本类别标识信息,确定所述训练完成的文本分类模型对该文本类别的识别准确率,若所述识别准确率大于设定的第一阈值,确定该文本类别为所述文本分类模型识别准确率较高的文本类别。
[0020]进一步地,所述通过词频统计算法,获取所述待识别文本数据对应的第二文本类别包括:
[0021]获取预先设定的每个关键词在所述待识别文本数据中出现的次数;
[0022]若任一文本类别设定的每个关键词在所述待识别文本数据中出现的次数均大于对应的第二阈值,则确定该文本类别为所述第二文本类别。
[0023]进一步地,所述通过词频统计算法,获取所述待识别文本数据对应的第二文本类别包括:
[0024]获取预先设定的每个关键词在所述待识别文本数据中出现的次数;
[0025]若任一文本类别设定的目标关键词在所述待识别文本数据中出现的次数均大于对应的第三阈值,则确定该文本类别为所述第二文本类别。
[0026]进一步地,确定所述词频统计算法识别准确率较高的类别包括:
[0027]针对所述任一文本类别,根据该文本类别的任一训练文本数据的第一文本类别标识信息,及所述词频统计算法确定的第二识别文本类别标识信息,确定所述词频统计算法对该文本类别的识别准确率,若所述识别准确率大于设定的第四阈值,确定该文本类别为所述词频统计算法识别准确率较高的文本类别。
[0028]进一步地,所述方法还包括:
[0029]根据所述目标类别,确定所述目标类别对应的第一文本类别标识信息,并将所述待识别文本数据作为样本文本数据,将所述样本文本数据及确定的所述第一文本类别标识信息保存到训练集中。
[0030]进一步地,所述方法还包括:
[0031]根据更新后的所述训练集中的样本文本数据及对应的第一文本类别标识信息,对所述文本分类模型进行修正。
[0032]进一步地,所述文本分类模型包括fasttext文本分类模型。
[0033]本专利技术的再一方面提供了一种文本分类装置,所述装置包括:
[0034]获取模块,用于通过预先训练完成的文本分类模型,获取待识别文本数据对应的第一文本类别;并通过词频统计算法,获取所述待识别文本数据对应的第二文本类别;
[0035]第一确定模块,用于在所述第一文本类别与所述第二文本类别相同时,将所述第一文本类别或所述第二文本类别作为所述待识别文本数据的目标类别;
[0036]第二确定模块,用于在所述第一文本类别与所述第二文本类别不同时,若所述第一文本类别为所述文本分类模型识别准确率较高的文本类别时,则将所述第一文本类别作为所述待识别文本数据的目标类别;若所述第二文本类别为所述词频统计算法识别准确率较高的文本类别时,则将所述第二文本类别作为所述待识别文本数据的目标类别。
[0037]进一步地,训练所述文本分类模型的过程包括:
[0038]获取训练集中任一训练文本数据,所述训练文本数据对应有人工标注的第一文本类别标识信息;
[0039]通过原始文本分类模型,获取所述训练文本数据对应的第二文本类别标识信息;
[0040]根据所述第一文本类别标识信息及所述第二文本类别标识信息,对所述原始文本分类模型进行训练,得到所述训练完成的文本分类模型。
[0041]进一步地,确定所述文本分类模型识别准确率较高的类别包括:
[0042]针对任一文本类别,根据该文本类别的任一训练文本数据的第一文本类别标识信息,及所述训练完成的文本分类模型确定的第一识别文本类别本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种文本分类方法,其特征在于,所述方法包括:通过预先训练完成的文本分类模型,获取待识别文本数据对应的第一文本类别;并通过词频统计算法,获取所述待识别文本数据对应的第二文本类别;在所述第一文本类别与所述第二文本类别相同时,将所述第一文本类别或所述第二文本类别作为所述待识别文本数据的目标类别;在所述第一文本类别与所述第二文本类别不同时,若所述第一文本类别为所述文本分类模型识别准确率较高的文本类别时,则将所述第一文本类别作为所述待识别文本数据的目标类别;若所述第二文本类别为所述词频统计算法识别准确率较高的文本类别时,则将所述第二文本类别作为所述待识别文本数据的目标类别。2.根据权利要求1所述的方法,其特征在于,训练所述文本分类模型的过程包括:获取训练集中任一训练文本数据,所述训练文本数据对应有人工标注的第一文本类别标识信息;通过原始文本分类模型,获取所述训练文本数据对应的第二文本类别标识信息;根据所述第一文本类别标识信息及所述第二文本类别标识信息,对所述原始文本分类模型进行训练,得到所述训练完成的文本分类模型。3.根据权利要求2所述的方法,其特征在于,确定所述文本分类模型识别准确率较高的类别包括:针对任一文本类别,根据该文本类别的任一训练文本数据的第一文本类别标识信息,及所述训练完成的文本分类模型确定的第一识别文本类别标识信息,确定所述训练完成的文本分类模型对该文本类别的识别准确率,若所述识别准确率大于设定的第一阈值,确定该文本类别为所述文本分类模型识别准确率较高的文本类别。4.根据权利要求1所述的方法,其特征在于,所述通过词频统计算法,获取所述待识别文本数据对应的第二文本类别包括:获取预先设定的每个关键词在所述待识别文本数据中出现的次数;若任一文本类别设定的每个关键词在所述待识别文本数据中出现的次数均大于对应的第二阈值,则确定该文本类别为所述第二文本类别。5.根据权利要求1所述的方法,其特征在于,所述通过词频统计算法,获取所述待识别文本数据对应的第二文本类别包括:获取预先设定的每个关键词在所述待识别文本数据中出现的次数;若任一文本类别设定的目标关键词在所述待识别文本数据中出现的次数均大于对应的第三阈值...
【专利技术属性】
技术研发人员:贺新宇,葛通,陈维强,孙永良,于涛,王玮,李建伟,
申请(专利权)人:海信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。