敏感信息检测方法和装置制造方法及图纸

技术编号：23932946 阅读：31 留言：0更新日期：2020-04-25 02:07

本发明专利技术公开敏感信息检测方法和装置，其中，一种敏感信息检测方法，包括：响应于接收到的待检测文本，对待检测文本进行分词处理以得到第一分词序列；判断第一分词序列中的各分词是否能够匹配上白名单中的词；如果能够匹配上白名单中的词，使用与白名单中的词对应的预设标记替换第一分词序列中与白名单中的词匹配的分词以形成第二分词序列，其中，白名单中的词均具有对应的预设标记；判断第二分词序列中的各分词是否能够匹配上黑名单中的词；以及如果第二分词序列中的任一分词能够匹配上黑名单中的词，将待检测文本确定为敏感信息。本申请实施例通过先进行白名单匹配和替换再进行黑名单检测，能避免一部分词被误识别为敏感词，减少误识别的概率。

Sensitive information detection methods and devices

全部详细技术资料下载

【技术实现步骤摘要】
敏感信息检测方法和装置
本专利技术属于敏感信息检测
，尤其涉及敏感信息检测方法和装置。
技术介绍
随着互联网的不断发展和进步，基于文本信息的网络服务已经深入到人们生活的各个方面。但是互联网服务中的文本信息在给人们带来交流便利的同时，不可避免地也会散播一些未经证实的消息或不良内容，很多情况下会出现违反国家法律法规并损害公众利益的言行。因此，为了维护国家法律和公民权益，越来越多的网络文本服务中集成了敏感词过滤功能。目前流行的敏感词匹配技术，通常采用敏感词库中的敏感词向待判定的文本匹配的方式进行的，需要反复地提取词语并逐词比对。专利技术人在实现本申请的过程中发现：其一，这种反复执行的敏感词查找操作会严重降低网络服务的性能，影响用户体验；其二，这种提取方式只考虑文本的局部信息，没有考虑句子的上下文语义信息，会错误屏蔽掉用户的信息，降低用户的通讯质量；其三，这种提取方式使用的是统一的敏感词库，没有考虑不同的用户有不同的敏感词库，不支持敏感词库的配置，灵活度不高。
技术实现思路
本专利技术实施例提供一种敏感信息检测方法和装置，用于至少解决上述技术问题之一。第一方面，本专利技术实施例提供一种敏感信息检测方法，包括：响应于接收到的待检测文本，对所述待检测文本进行分词处理以得到第一分词序列；判断所述第一分词序列中的各分词是否能够匹配上白名单中的词；如果能够匹配上所述白名单中的词，使用与所述白名单中的词对应的预设标记替换所述第一分词序列中与所述白名单中的词匹配的分词以形成第二分词序列，其...

【技术保护点】
1.一种敏感信息检测方法，包括：/n响应于接收到的待检测文本，对所述待检测文本进行分词处理以得到第一分词序列；/n判断所述第一分词序列中的各分词是否能够匹配上白名单中的词；/n如果能够匹配上所述白名单中的词，使用与所述白名单中的词对应的预设标记替换所述第一分词序列中与所述白名单中的词匹配的分词以形成第二分词序列，其中，所述白名单中的词均具有对应的预设标记；/n判断所述第二分词序列中的各分词是否能够匹配上黑名单中的词；/n如果所述第二分词序列中的任一分词能够匹配上所述黑名单中的词，将所述待检测文本确定为敏感信息。/n

【技术特征摘要】
1.一种敏感信息检测方法，包括：
响应于接收到的待检测文本，对所述待检测文本进行分词处理以得到第一分词序列；
判断所述第一分词序列中的各分词是否能够匹配上白名单中的词；
如果能够匹配上所述白名单中的词，使用与所述白名单中的词对应的预设标记替换所述第一分词序列中与所述白名单中的词匹配的分词以形成第二分词序列，其中，所述白名单中的词均具有对应的预设标记；
判断所述第二分词序列中的各分词是否能够匹配上黑名单中的词；
如果所述第二分词序列中的任一分词能够匹配上所述黑名单中的词，将所述待检测文本确定为敏感信息。

2.根据权利要求1所述的方法，其中，在所述如果所述第二分词序列中的任一分词能够匹配上所述黑名单中的词之后，所述方法还包括：
基于匹配上的所述黑名单中的词的预设类别对所述待检测文本进行分类，其中，所述黑名单中的词具有预设类别。

3.根据权利要求1所述的方法，其中，在判断所述第二分词序列是否能够匹配上黑名单中的词之后，所述方法还包括：
如果所述第二分词序列中的各分词均不能匹配上所述黑名单中的词，将所述待检测文本输入文本分类模型以判断所述待检测文本是否为敏感文本，所述文本分类模型为经过预设文本分类训练的分类模型，所述文本分类模型采用长短时记忆神经网络构建。

4.根据权利要求1所述的方法，其中，在所述判断所述第一分词序列中的各分词是否能够匹配上白名单中的词之后，所述方法还包括：
如果不能够匹配上所述白名单中的词，判断所述第一分词序列中的各分词是否能够匹配上所述黑名单中的词。

5.根据权利要求4所述的方法，其中，在所述如果不能够匹配上所述白名单中的词，判断所述第一分词序列中的各分词是否能够匹配上所述黑名单中的词之后，所述方法还包括：
如果所述第一分词序列中的任一分词能够匹配上所述黑名单中的词，基于...

【专利技术属性】
技术研发人员：朱少华，缪庆亮，
申请(专利权)人：苏州思必驰信息科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人