一种基于倾斜随机森林的处理大量文本中识别不良文本的方法技术

技术编号：33645581 阅读：16 留言：0更新日期：2022-06-02 20:22

本发明专利技术涉及人工智能技术领域，具体涉及一种基于倾斜随机森林的处理大量文本中识别不良文本的方法，包括读取文本数据；对文本数据进行预处理，得到文本向量；建立不良文本词典对所述文本向量进行不良率判断，若判断不合格则将所述文本向量定义为不良文本；若判断合格则得到文本集合并执行下一步；基于文本集合，利用随机森林构建倾斜随机森林分类模型；利用倾斜随机森林分类模型对文本向量进行分类，得到文本分类结果，通过倾斜随机森林分类模型得出的分类结果准确率较高，解决了传统的随机森林算法分类的准确率较低的问题。林算法分类的准确率较低的问题。林算法分类的准确率较低的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于倾斜随机森林的处理大量文本中识别不良文本的方法

[0001]本专利技术涉及人工智能
，尤其涉及一种基于倾斜随机森林的处理大量文本中识别不良文本的方法。

技术介绍

[0002]随着互联网的飞速发展，从海量数据中进行事件检测已经成为一个研究热点。然而，现有的社交网络事件检测方法很少考虑短文本数据中的过滤数据。因此，有效检测短文本的敏感信息项、限制敏感信息的肆意传播、阻止不良信息对网络资源的侵害有利于实现互联网的发展。
[0003]随机森林(Random Forests,RF)是分类算法的重要技术之一，相关文本过滤也进行了使用。但随机森林算法在分类不平衡数据集时，对少数类分类准确率过低，导致整体分类准确率下降。网络过滤过程中，往往面对海量的数据信息，从中找出敏感词，因此传统的随机森林算法影响了事件检测的效率和准确性。

技术实现思路

[0004]本专利技术的目的在于提供一种基于倾斜随机森林的处理大量文本中识别不良文本的方法，旨在解决传统的随机森林算法分类的准确率较低的问题。
[0005]为实现上述目的，本专利技术提供了一种基于倾斜随机森林的处理大量文本中识别不良文本的方法，包括以下步骤：
[0006]S1读取文本数据；
[0007]S2对所述文本数据进行预处理，得到文本向量；
[0008]S3建立不良文本词典对所述文本向量进行不良率判断，若判断不合格则将所述文本向量定义为不良文本；若判断合格则得到文本集合并执行步骤S4；
[0009]S4基于所述文...

【技术保护点】

【技术特征摘要】
1.一种基于倾斜随机森林的处理大量文本中识别不良文本的方法，其特征在于，包括以下步骤：S1读取文本数据；S2对所述文本数据进行预处理，得到文本向量；S3建立不良文本词典对所述文本向量进行不良率判断，若判断不合格则将所述文本向量定义为不良文本；若判断合格则得到文本集合并执行步骤S4；S4基于所述文本集合，利用随机森林构建倾斜随机森林分类模型；S5利用所述倾斜随机森林分类模型对所述文本向量进行分类，得到文本分类结果。2.如权利要求1所述的基于倾斜随机森林的处理大量文本中识别不良文本的方法，其特征在于，所述获取文本内容的具体方式为：采用网络爬虫和调用API读取文本数据。3.如权利要求1所述的基于倾斜随机森林的处理大量文本中识别不良文本的方法，其特征在于，所述对所述文本数据进行预处理，得到文本向量的具体方式为：S21对所述文本数据进行分词选取，得到选取文本；S22对所述选取文本进行特征选取，得到特征文本；S23利用卷积神经网络对所述特征文本进行长短文本区分，得到文本向量。4.如权利要求1所述的基于倾斜随机森林的处理大量文本中识别不良文本的方...

【专利技术属性】
技术研发人员：张攀峰，阚学达，汪玉坤，杜慧，敬超，陶小梅，
申请(专利权)人：桂林理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人