一种基于倾斜随机森林的处理大量文本中识别不良文本的方法技术

技术编号:33645581 阅读:16 留言:0更新日期:2022-06-02 20:22
本发明专利技术涉及人工智能技术领域,具体涉及一种基于倾斜随机森林的处理大量文本中识别不良文本的方法,包括读取文本数据;对文本数据进行预处理,得到文本向量;建立不良文本词典对所述文本向量进行不良率判断,若判断不合格则将所述文本向量定义为不良文本;若判断合格则得到文本集合并执行下一步;基于文本集合,利用随机森林构建倾斜随机森林分类模型;利用倾斜随机森林分类模型对文本向量进行分类,得到文本分类结果,通过倾斜随机森林分类模型得出的分类结果准确率较高,解决了传统的随机森林算法分类的准确率较低的问题。林算法分类的准确率较低的问题。林算法分类的准确率较低的问题。

【技术实现步骤摘要】
一种基于倾斜随机森林的处理大量文本中识别不良文本的方法


[0001]本专利技术涉及人工智能
,尤其涉及一种基于倾斜随机森林的处理大量文本中识别不良文本的方法。

技术介绍

[0002]随着互联网的飞速发展,从海量数据中进行事件检测已经成为一个研究热点。然而,现有的社交网络事件检测方法很少考虑短文本数据中的过滤数据。因此,有效检测短文本的敏感信息项、限制敏感信息的肆意传播、阻止不良信息对网络资源的侵害有利于实现互联网的发展。
[0003]随机森林(Random Forests,RF)是分类算法的重要技术之一,相关文本过滤也进行了使用。但随机森林算法在分类不平衡数据集时,对少数类分类准确率过低,导致整体分类准确率下降。网络过滤过程中,往往面对海量的数据信息,从中找出敏感词,因此传统的随机森林算法影响了事件检测的效率和准确性。

技术实现思路

[0004]本专利技术的目的在于提供一种基于倾斜随机森林的处理大量文本中识别不良文本的方法,旨在解决传统的随机森林算法分类的准确率较低的问题。
[0005]为实现上述目的,本专利技术提供了一种基于倾斜随机森林的处理大量文本中识别不良文本的方法,包括以下步骤:
[0006]S1读取文本数据;
[0007]S2对所述文本数据进行预处理,得到文本向量;
[0008]S3建立不良文本词典对所述文本向量进行不良率判断,若判断不合格则将所述文本向量定义为不良文本;若判断合格则得到文本集合并执行步骤S4;
[0009]S4基于所述文本集合,利用随机森林构建倾斜随机森林分类模型;
[0010]S5利用所述倾斜随机森林分类模型对所述文本向量进行分类,得到文本分类结果。
[0011]其中,所述获取文本内容的具体方式为:
[0012]采用网络爬虫和调用API读取文本数据。
[0013]其中,所述对所述文本数据进行预处理,得到文本向量的具体方式为:
[0014]S21对所述文本数据进行分词选取,得到选取文本;
[0015]S22对所述选取文本进行特征选取,得到特征文本;
[0016]S23利用卷积神经网络对所述特征文本进行长短文本区分,得到文本向量。
[0017]其中,所述建立不良文本词典对所述文本向量进行不良率判断,判断不合格,将所述文本向量定义为不良文本,判断合格,得到文本集合,执行步骤S4的具体方式为:
[0018]S31建立地址词典和关键词词典;
[0019]S32所述地址词典对所述文本向量中的地址进行不良文本内容占比判断,如所述地址的不良文本内容占比大于等于50%,将所述文本向量定义为不良文本,如所述地址的不良文本内容占比小于50%,执行步骤S33;
[0020]S33所述关键词词典对所述文本向量进行铭感词判断,将所述文本向量包含铭感词的内容判断为不良文本,并将所述不良文本滤除,得到文本集合,执行步骤S4。
[0021]其中,所述基于所述文本集合,利用随机森林构建倾斜随机森林分类模型的具体方式为:
[0022]S41通过随机森林使用交叉认证的方式对所述文本集合进行划分,生成样本子集;
[0023]S42基于所述样本子集构建多个决策树分类模型;
[0024]S43采用随机森林装袋的思想对每个所述决策树分类模型的预测结果进行统计,将票数最高的结果作为倾斜随机森林分类模型的预测结果。
[0025]本专利技术的一种基于倾斜随机森林的处理大量文本中识别不良文本的方法,读取文本数据;对所述文本数据进行预处理,得到文本向量;建立不良文本词典对所述文本向量进行不良率判断,判断不合格,将所述文本向量定义为不良文本,判断合格,执行步骤下一步;基于所述文本集合,利用随机森林构建倾斜随机森林分类模型;利用所述倾斜随机森林分类模型对所述文本向量进行分类,得到文本分类结果,通过所述倾斜随机森林分类模型得出的分类结果准确率较高,解决了传统的随机森林算法分类的准确率较低的问题。
附图说明
[0026]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0027]图1是本专利技术提供的一种基于倾斜随机森林的处理大量文本中识别不良文本的方法的流程图。
[0028]图2是对所述文本数据进行预处理,得到文本向量的流程图。
[0029]图3是建立不良文本词典对所述文本向量进行不良率判断,判断不合格,将所述文本向量定义为不良文本,判断合格,得到文本集合,执行步骤S4的流程图。
[0030]图4是基于所述文本集合,利用随机森林构建倾斜随机森林分类模型的程图。
[0031]图5是读取文本数据的流程图。
具体实施方式
[0032]下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。
[0033]请参阅图1至图5,本专利技术提供一种基于倾斜随机森林的处理大量文本中识别不良文本的方法,包括以下步骤:
[0034]S1读取文本数据;
[0035]具体的,采用网络爬虫和调用API读取文本数据。
[0036]其中,API,全称Application Programming Interface,即应用程序编程接口。API是一些预先定义函数,目的是用来提供应用程序与开发人员基于某软件或者某硬件得以访问一组例程的能力,并且无需访问源码或无需理解内部工作机制细节。API就是操作系统给应用程序的调用接口,应用程序通过调用操作系统的API而使操作系统去执行应用程序的命令(动作)。在Windows中,系统API是以函数调用的方式提供的。
[0037]其中,网络爬虫,又被称为网络蜘蛛,广泛应用于互联网搜索引擎及其他类似网站,其目的是将互联网上的网页、数据或文本信息下载到本地以供做进一步处理。传统的网络爬虫将待抓取的URL放入抓取队列中等待抓取,我们可以称队列为URL种子库,里面包含URL抓取的信息,分别代表新投递为抓取,抓取成功,抓取失败等。每次抓取时,会在队列中选取新投递的URL,解析DNS获取主机IP,并根据IP地址抓取新的页面,然后更新种子库的URL状态,对于抓取页面后产生的新的URL,我们称之为新链扩展,将扩展出的URL重新投递到种子库中,直到满足一定条件时候停止抓取,例如页面拓展深度等。
[0038]其中,在本文的不良文本过滤基础数据获取中,所需要的爬虫与传统的爬虫程序存在一定的差异。如图5所示,本文所需要的是,将一批网页URL作为种子URL放入待抓取队列,也就是种子库中,这一批URL在域名和分类上相同,存在的差异主要在分类下面的ID,对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于倾斜随机森林的处理大量文本中识别不良文本的方法,其特征在于,包括以下步骤:S1读取文本数据;S2对所述文本数据进行预处理,得到文本向量;S3建立不良文本词典对所述文本向量进行不良率判断,若判断不合格则将所述文本向量定义为不良文本;若判断合格则得到文本集合并执行步骤S4;S4基于所述文本集合,利用随机森林构建倾斜随机森林分类模型;S5利用所述倾斜随机森林分类模型对所述文本向量进行分类,得到文本分类结果。2.如权利要求1所述的基于倾斜随机森林的处理大量文本中识别不良文本的方法,其特征在于,所述获取文本内容的具体方式为:采用网络爬虫和调用API读取文本数据。3.如权利要求1所述的基于倾斜随机森林的处理大量文本中识别不良文本的方法,其特征在于,所述对所述文本数据进行预处理,得到文本向量的具体方式为:S21对所述文本数据进行分词选取,得到选取文本;S22对所述选取文本进行特征选取,得到特征文本;S23利用卷积神经网络对所述特征文本进行长短文本区分,得到文本向量。4.如权利要求1所述的基于倾斜随机森林的处理大量文本中识别不良文本的方...

【专利技术属性】
技术研发人员:张攀峰阚学达汪玉坤杜慧敬超陶小梅
申请(专利权)人:桂林理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1