一种智能敏感字词识别系统技术方案

技术编号:29461313 阅读:11 留言:0更新日期:2021-07-27 17:31
本发明专利技术提供一种智能敏感字词识别系统,包括:获取模块、文本识别模块和图片识别模块;其中获取模块用于使用网络爬虫对目标网页的文本和图片进行抓取,获取目标网页的文本信息和图片信息;文本识别模块用于对获取的文本信息进行预处理,对预处理后的文本信息进行敏感词识别处理,获取文本敏感词识别结果;图片识别模块用于对获取的图片信息进行预处理,对预处理后的图片信息进行文本提取,并根据提取的文本信息进行敏感词识别处理,获取图片敏感词识别结果。本发明专利技术能够针对以图片形式发布的敏感文字信息进行识别,并进一步将网站上的敏感信息进行屏蔽,保证了网站的信息健康环境,同时也有助于提高网站管理者对网站的管理水平。

An intelligent sensitive word recognition system

【技术实现步骤摘要】
一种智能敏感字词识别系统
本专利技术涉及网络管理
,特别是一种智能敏感字词识别系统。
技术介绍
对于一个国家甚至世界来说,健康的网络环境十分重要的,这关乎到这个社会的健康发展。然而,由于部分网站对用户开放了较多的权限,例如论坛、贴吧、聊天室网站等,各用户能够在网站上自由发表信息或评论,因此也有一些不法用户利用这些网站大肆发布敏感信息,容易导致网站上泛滥大量的敏感性文字和词汇,如涉及色情、政治、民生、涉赌、涉毒等类别的词汇,这严重影响着网站环境,给网站管理者带来非常严峻的挑战,故越来越多的网站管理机构开始采用专门的软件来对自家的网站进行敏感性词汇的监测。现有技术中,很多传统的监测软件都是基于规则匹配的,大都基于预先设置好的敏感词库,然后对网站进行爬虫,最后对网站进行词汇匹配;但是,由于这种检测方式模式过于单一,因此,容易被不法用户轻易规避,例如将文字信息转化成图片的文件格式(例如是在一幅图片的基础上的空白位置编辑需要发布的敏感文字信息,然后将整个图片进行发布)进行发布,以规避针对文本信息的敏感,影响针对网站敏感字词识别检测的可靠性。
技术实现思路
针对上述问题,本专利技术旨在提供一种智能敏感字词识别系统。本专利技术的目的采用以下技术方案来实现:本专利技术示出一种智能敏感字词识别系统,包括:获取模块、文本识别模块和图片识别模块;其中,获取模块用于使用网络爬虫对目标网页的文本和图片进行抓取,获取目标网页的文本信息和图片信息;文本识别模块用于对获取的文本信息进行预处理,对预处理后的文本信息进行敏感词识别处理,获取文本敏感词识别结果;图片识别模块用于对获取的图片信息进行预处理,对预处理后的图片信息进行文本提取,并根据提取的文本信息进行敏感词识别处理,获取图片敏感词识别结果。一种实施方式中,该系统还包括处理模块;其中,处理模块用于当识别到目标网页包含敏感信息时,屏蔽该敏感信息。一种实施方式中,获取模块包括文字获取单元和图片获取单元;其中,文字获取单元用于获取目标网页中的文本信息;图片获取单元用于获取目标网页中的图片信息。一种实施方式中,文本识别模块,具体包括:分词单元、主题分类单元和识别单元;其中,分词单元用于对获取的网页文本信息进行分词处理,将网页文本信息拆分成由若干个单词组成的词向量集;主题分类单元用于根据获取的词向量集进行主题分类识别,获取该词向量集的主题分类标签;其中主题分类标签包括:体育、教育、游戏、政府和企业等不同主题的标签,每个主题分类标签对应设置有对应的敏感词库;识别单元用于根据该词向量集的主题分类标签,调用相应的基于深度学习的敏感词识别模型对该词向量集进行敏感词识别,输出文本敏感词识别结果;其中调用的敏感词识别模型由根据与该主题分类标签对应的敏感词库训练所得。一种实施方式中,图片识别模块,具体包括:图片文本提取单元、图片文本识别单元和图片敏感文本识别单元;其中,图片文本提取单元用于对获取的目标网页中的网页图片进行文本识别,并对图片中的文本部分进行定位,并根据文本部分的定位从该图片中分割出文本部分图片;图片文本识别单元用于根据获取的文本部分图片,基于卷积神经网络CNN模型对该文本部分图片进行文本识别处理(CNN:卷积神经网络,ConvolutionalNeuralNetwork),输出该文本部分图片对应的图片文本信息;图片敏感文本识别单元用于根据获取的图片文本信息,基于训练好的SVM分类器对该图片文本信息进行敏感信息识别处理(SVM:支持向量机,SupportVectorMachine),输出图片敏感词识别结果。本专利技术的有益效果为:本专利技术系统能够基于网站中的文本信息和图片信息进行敏感字词的识别,其中特别能够针对以图片形式发布的敏感文字信息进行识别,并进一步将网站上的敏感信息进行屏蔽,保证了网站的信息健康环境,同时也有助于提高网站管理者对网站的管理水平。附图说明利用附图对本专利技术作进一步说明,但附图中的实施例不构成对本专利技术的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。图1为本专利技术一种智能敏感字词识别系统示例性实施例的框架结构图。附图标记:获取模块10,文本识别模块20,图片识别模块30,处理模块40。具体实施方式结合以下应用场景对本专利技术作进一步描述。参见图1实施例所示一种智能敏感字词识别系统,包括:获取模块10、文本识别模块20和图片识别模块30;其中,获取模块10用于使用网络爬虫对目标网页的文本和图片进行抓取,获取目标网页的文本信息和图片信息;文本识别模块20用于对获取的文本信息进行预处理,对预处理后的文本信息进行敏感词识别处理,获取文本敏感词识别结果;图片识别模块30用于对获取的图片信息进行预处理,对预处理后的图片信息进行文本提取,并根据提取的文本信息进行敏感词识别处理,获取图片敏感词识别结果。本专利技术上述实施方式,智能敏感字词识别系统能够基于网站中的文本信息和图片信息进行敏感字词的识别,其中特别能够针对以图片形式发布的敏感文字信息进行识别,并进一步将网站上的敏感信息进行屏蔽,保证了网站的信息健康环境,同时也有助于提高网站管理者对网站的管理水平。一种实施方式中,该系统还包括处理模块40;其中,处理模块40用于当识别到目标网页包含敏感信息时,屏蔽该敏感信息。一种场景中,当检测到目标网页的文本信息中存在敏感词时,则采用特殊的符号替换被识别到的敏感词;当检测到目标网页的图片信息中存在敏感文本信息时,则直接将该图片删除,用预先设定的特殊标识图片进行代替。一种实施方式中,获取模块10包括文字获取单元和图片获取单元;其中,文字获取单元用于获取目标网页中的文本信息;图片获取单元用于获取目标网页中的图片信息。在获取目标网页的图片信息时,首先设置在网站上抓取网页中图片获取规则,利用现有技术中的网络爬虫来通过网页的链接地址来寻找网页,一直循环下去,直到把这个网站所有的网页图片都抓取完为止。同时,上述方式也适用于目标网页中的文本信息抓取,利用现有技术中的网络爬虫来抓取网页中的所有文本信息。基于文本识别模块20对目标网页中的文本信息进行敏感词识别处理,可以采用现有的基于敏感词识别模型进行。但是基于现有的针对网站敏感词识别的技术中,通常采用统一的敏感词库,但是在不同的应用场景或话题讨论下,相同的词汇也可能会存在不同的含义,使得一些虽然看起来敏感的词汇但是在某些特定情况下其实是属于正常使用的情况,例如:在电商销售平台相关的网站,“山寨”、“盗版”等词汇是属于敏感词,但是,在体育娱乐领域,这些词汇则被赋予正常的表达意思;例如,在大多数网站下,领导人的名字应该是属于敏感词;但是在政府信息发布网站发布的新闻稿中,这些名字应该被允许正常出现,等等。因此,采用统一的敏感词库对不同场景、功能或本文档来自技高网...

【技术保护点】
1.一种智能敏感字词识别系统,其特征在于,包括:获取模块、文本识别模块和图片识别模块;其中,/n获取模块用于使用网络爬虫对目标网页的文本和图片进行抓取,获取目标网页的文本信息和图片信息;/n文本识别模块用于对获取的文本信息进行预处理,对预处理后的文本信息进行敏感词识别处理,获取文本敏感词识别结果;/n图片识别模块用于对获取的图片信息进行预处理,对预处理后的图片信息进行文本提取,并根据提取的文本信息进行敏感词识别处理,获取图片敏感词识别结果。/n

【技术特征摘要】
1.一种智能敏感字词识别系统,其特征在于,包括:获取模块、文本识别模块和图片识别模块;其中,
获取模块用于使用网络爬虫对目标网页的文本和图片进行抓取,获取目标网页的文本信息和图片信息;
文本识别模块用于对获取的文本信息进行预处理,对预处理后的文本信息进行敏感词识别处理,获取文本敏感词识别结果;
图片识别模块用于对获取的图片信息进行预处理,对预处理后的图片信息进行文本提取,并根据提取的文本信息进行敏感词识别处理,获取图片敏感词识别结果。


2.根据权利要求1所述的一种智能敏感字词识别系统,其特征在于,还包括处理模块;其中,
处理模块用于当识别到目标网页包含敏感信息时,屏蔽该敏感信息。


3.根据权利要求1所述的一种智能敏感字词识别系统,其特征在于,获取模块包括文字获取单元和图片获取单元;其中,
文字获取单元用于获取目标网页中的文本信息;
图片获取单元用于获取目标网页中的图片信息。


4.根据权利要求3所述的一种智能敏感字词识别系统,其特征在于,文本识别模块,具体包括:分词单元、主题分类单元和识别单元;其中,
分词单元用于对获取的网页文本信息进行分词处理,将...

【专利技术属性】
技术研发人员:项超
申请(专利权)人:上海慧洲信息技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1