敏感信息检测方法和装置制造方法及图纸

技术编号:23932946 阅读:31 留言:0更新日期:2020-04-25 02:07
本发明专利技术公开敏感信息检测方法和装置,其中,一种敏感信息检测方法,包括:响应于接收到的待检测文本,对待检测文本进行分词处理以得到第一分词序列;判断第一分词序列中的各分词是否能够匹配上白名单中的词;如果能够匹配上白名单中的词,使用与白名单中的词对应的预设标记替换第一分词序列中与白名单中的词匹配的分词以形成第二分词序列,其中,白名单中的词均具有对应的预设标记;判断第二分词序列中的各分词是否能够匹配上黑名单中的词;以及如果第二分词序列中的任一分词能够匹配上黑名单中的词,将待检测文本确定为敏感信息。本申请实施例通过先进行白名单匹配和替换再进行黑名单检测,能避免一部分词被误识别为敏感词,减少误识别的概率。

Sensitive information detection methods and devices

【技术实现步骤摘要】
敏感信息检测方法和装置
本专利技术属于敏感信息检测
,尤其涉及敏感信息检测方法和装置。
技术介绍
随着互联网的不断发展和进步,基于文本信息的网络服务已经深入到人们生活的各个方面。但是互联网服务中的文本信息在给人们带来交流便利的同时,不可避免地也会散播一些未经证实的消息或不良内容,很多情况下会出现违反国家法律法规并损害公众利益的言行。因此,为了维护国家法律和公民权益,越来越多的网络文本服务中集成了敏感词过滤功能。目前流行的敏感词匹配技术,通常采用敏感词库中的敏感词向待判定的文本匹配的方式进行的,需要反复地提取词语并逐词比对。专利技术人在实现本申请的过程中发现:其一,这种反复执行的敏感词查找操作会严重降低网络服务的性能,影响用户体验;其二,这种提取方式只考虑文本的局部信息,没有考虑句子的上下文语义信息,会错误屏蔽掉用户的信息,降低用户的通讯质量;其三,这种提取方式使用的是统一的敏感词库,没有考虑不同的用户有不同的敏感词库,不支持敏感词库的配置,灵活度不高。
技术实现思路
本专利技术实施例提供一种敏感信息检测方法和装置,用于至少解决上述技术问题之一。第一方面,本专利技术实施例提供一种敏感信息检测方法,包括:响应于接收到的待检测文本,对所述待检测文本进行分词处理以得到第一分词序列;判断所述第一分词序列中的各分词是否能够匹配上白名单中的词;如果能够匹配上所述白名单中的词,使用与所述白名单中的词对应的预设标记替换所述第一分词序列中与所述白名单中的词匹配的分词以形成第二分词序列,其中,所述白名单中的词均具有对应的预设标记;判断所述第二分词序列中的各分词是否能够匹配上黑名单中的词;以及如果所述第二分词序列中的任一分词能够匹配上所述黑名单中的词,将所述待检测文本确定为敏感信息。第二方面,本专利技术实施例提供一种敏感信息检测装置,包括:分词模块,配置为响应于接收到的待检测文本,对所述待检测文本进行分词处理以得到第一分词序列;白名单判断模块,配置为判断所述第一分词序列中的各分词是否能够匹配上白名单中的词;标记替换模块,配置为如果能够匹配上所述白名单中的词,使用与所述白名单中的词对应的预设标记替换所述第一分词序列中与所述白名单中的词匹配的分词以形成第二分词序列,其中,所述白名单中的词均具有对应的预设标记;黑名单判断模块,配置为判断所述第二分词序列中的各分词是否能够匹配上黑名单中的词;以及敏感信息确定模块,配置为如果所述第二分词序列中的任一分词能够匹配上所述黑名单中的词,将所述待检测文本确定为敏感信息。第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例的敏感信息检测方法的步骤。第四方面,本专利技术实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本专利技术任一实施例的敏感信息检测方法的步骤。本申请的方法和装置提供的方案通过先对待检测文本进行分词形成第一分词序列,之后再对该第一分词序列进行白名单检测,如果第一分词序列中存在分词能够匹配上白名单上的词,就采用预设标记对该分词进行替换,从而后续再进行黑名单检测时不会将白名单中存在的敏感词判定为敏感信息,从而能避免一部分词被误识别为敏感词,减少误识别的概率。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一实施例提供的一种敏感信息检测方法的流程图;图2为本专利技术一实施例提供的一种敏感信息检测方法的流程图;图3为本专利技术一实施例提供的一种敏感信息检测方法的一个具体实施例的基于神经网络的文本分类方法的神经网络模型的网络架构图;图4为本专利技术一实施例提供的一种敏感信息检测方法的一个具体实施例的示意图;图5为本专利技术一实施例提供的一种敏感信息检测装置的框图;图6为本专利技术一实施例提供的电子设备的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参考图1,其示出了本申请的敏感信息检测方法一实施例的流程图,本实施例的敏感信息检测方法可以适用于对网络服务中的文本信息进行敏感信息检测,如网页、社交网络等中用户之间发送或者系统回复的文本信息等。如图1所示,在步骤101中,响应于接收到的待检测文本,对待检测文本进行分词处理以得到第一分词序列;在步骤102中,判断第一分词序列中的各分词是否能够匹配上白名单中的词;在步骤103中,如果能够匹配上白名单中的词,使用与白名单中的词对应的预设标记替换第一分词序列中与白名单中的词匹配的分词以形成第二分词序列,其中,白名单中的词均具有对应的预设标记;在步骤104中,判断第二分词序列中的各分词是否能够匹配上黑名单中的词;在步骤105中,如果第二分词序列中的任一分词能够匹配上黑名单中的词,将待检测文本确定为敏感信息。在本实施例中,对于步骤101,敏感信息检测装置在接收到待检测文本之后,对该待检测文本进行分词处理从而得到第一分词序列。当接收到需要检测的文本时,首先需要进行分词操作,分词就是将连续的字序列按照一定的规范重新组合成词序列的过程,现有技术中中文分词技术已经是一门比较成熟的技术了,在此不再赘述。之后,对于步骤102,敏感信息检测装置首先判断第一分词序列中的各分词是否能够匹配上白名单中的词。其中,敏感词名单分为黑名单和白名单。敏感词黑名单是传统的敏感词库,里面是敏感词集合,比如“裸聊”、“傻X”和“生殖器”等词。敏感词白名单指非敏感词集合,一般这些词包含敏感词,但是完整的词就不是敏感词,比如“水稻杂种”、“生殖器发育”和“打击毒品”。敏感词白名单的作用是屏蔽掉这些词,以免这些词被误识别为敏感词。然后,对于步骤103,敏感信息检测装置如果判断第一分词序列中的各分词能够匹配上白名单中的词,使用与白名单中的词对应的预设标记替换第一分词序列中与白名单中的词匹配的分词以形成第二分词序列,其中,白名单中的词均具有对应的预设标记。从而对于某些完整的词不是敏感词,但是其中包含敏感词的词语可以放在白名单中先进行一次过滤和替换,从而之后再进行黑名单检测时这些包含敏感词的白名单就不会被判定为包含黑名单中的词,从而减少误识别。例如,“水稻杂种”可以采用“&a本文档来自技高网...

【技术保护点】
1.一种敏感信息检测方法,包括:/n响应于接收到的待检测文本,对所述待检测文本进行分词处理以得到第一分词序列;/n判断所述第一分词序列中的各分词是否能够匹配上白名单中的词;/n如果能够匹配上所述白名单中的词,使用与所述白名单中的词对应的预设标记替换所述第一分词序列中与所述白名单中的词匹配的分词以形成第二分词序列,其中,所述白名单中的词均具有对应的预设标记;/n判断所述第二分词序列中的各分词是否能够匹配上黑名单中的词;/n如果所述第二分词序列中的任一分词能够匹配上所述黑名单中的词,将所述待检测文本确定为敏感信息。/n

【技术特征摘要】
1.一种敏感信息检测方法,包括:
响应于接收到的待检测文本,对所述待检测文本进行分词处理以得到第一分词序列;
判断所述第一分词序列中的各分词是否能够匹配上白名单中的词;
如果能够匹配上所述白名单中的词,使用与所述白名单中的词对应的预设标记替换所述第一分词序列中与所述白名单中的词匹配的分词以形成第二分词序列,其中,所述白名单中的词均具有对应的预设标记;
判断所述第二分词序列中的各分词是否能够匹配上黑名单中的词;
如果所述第二分词序列中的任一分词能够匹配上所述黑名单中的词,将所述待检测文本确定为敏感信息。


2.根据权利要求1所述的方法,其中,在所述如果所述第二分词序列中的任一分词能够匹配上所述黑名单中的词之后,所述方法还包括:
基于匹配上的所述黑名单中的词的预设类别对所述待检测文本进行分类,其中,所述黑名单中的词具有预设类别。


3.根据权利要求1所述的方法,其中,在判断所述第二分词序列是否能够匹配上黑名单中的词之后,所述方法还包括:
如果所述第二分词序列中的各分词均不能匹配上所述黑名单中的词,将所述待检测文本输入文本分类模型以判断所述待检测文本是否为敏感文本,所述文本分类模型为经过预设文本分类训练的分类模型,所述文本分类模型采用长短时记忆神经网络构建。


4.根据权利要求1所述的方法,其中,在所述判断所述第一分词序列中的各分词是否能够匹配上白名单中的词之后,所述方法还包括:
如果不能够匹配上所述白名单中的词,判断所述第一分词序列中的各分词是否能够匹配上所述黑名单中的词。


5.根据权利要求4所述的方法,其中,在所述如果不能够匹配上所述白名单中的词,判断所述第一分词序列中的各分词是否能够匹配上所述黑名单中的词之后,所述方法还包括:
如果所述第一分词序列中的任一分词能够匹配上所述黑名单中的词,基于...

【专利技术属性】
技术研发人员:朱少华缪庆亮
申请(专利权)人:苏州思必驰信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1