【技术实现步骤摘要】
一种基于NLP的敏感词汇屏蔽方法及系统
[0001]本专利技术属于敏感词汇屏蔽
,具体涉及一种基于
NLP
的敏感词汇屏蔽方法及系统
。
技术介绍
[0002]根据监管和安全的要求,互联网上的流通文件中存在的一些敏感词汇,例如,用户的姓名
、
身份证或手机号码等隐私信息,不合适的言论等敏感信息,企业的名称
、
信息
、
核心技术或员工情况等商业信息,需要进行屏蔽
。
[0003]现有技术存在的缺陷:
[0004]1)
现有的敏感词汇屏蔽算法只能识别出某些关键的敏感词汇,而对于敏感词汇的拼音
、
字形相近
、
音形相近或同义词无法进行识别,导致屏蔽敏感词汇的准确率低;
[0005]2)
现有的敏感词汇屏蔽算法利用敏感词库做字符串匹配,从而实现敏感词识别,这种方式的效率低,并且只能对纯文本文件进行敏感词汇屏蔽,对于图像文件或视频文件则无法进行文本识别和敏感词汇屏蔽,实用性低
。
技术实现思路
[0006]为了解决现有技术存在的屏蔽敏感词汇的准确率低,效率低以及实用性低的问题,本专利技术目的在于提供一种基于
NLP
的敏感词汇屏蔽方法及系统
。
[0007]本专利技术所采用的技术方案为:
[0008]一种基于
NLP
的敏感词汇屏蔽方法,包括如下步骤:
[0009]构建敏感词汇语料 ...
【技术保护点】
【技术特征摘要】
1.
一种基于
NLP
的敏感词汇屏蔽方法,其特征在于:包括如下步骤:构建敏感词汇语料库和非敏感词汇语料库;根据敏感词汇语料库和非敏感词汇语料库,使用
NLP
算法,构建敏感词汇识别模型;对待分析文件进行文本提取,得到待分析文本;使用分词算法,对待分析文本进行分词处理,得到待分析词序列;将待分析词序列输入敏感词汇识别模型进行敏感词汇识别,得到待分析词序列的敏感词汇;根据敏感词汇语料库,对待分析词序列的敏感词汇进行核验,若核验结果为真实,则使用屏蔽符号替换待分析词序列的敏感词汇,得到敏感词汇屏蔽后词序列,否则,将待分析词序列重新进行敏感词汇识别;根据敏感词汇屏蔽后词序列,得到敏感词汇屏蔽后文本,并将敏感词汇屏蔽后文本加载至待分析文件,得到敏感词汇屏蔽后文件
。2.
根据权利要求1所述的基于
NLP
的敏感词汇屏蔽方法,其特征在于:构建敏感词汇语料库和非敏感词汇语料库,包括如下步骤:使用爬虫工具,在互联网中抓取中文或英文的若干已知的敏感词汇;抓取若干已知的敏感词汇的拼音
、
近义词汇以及同音词汇;对若干已知的敏感词汇及其拼音
、
近义词汇以及同音词汇进行数据压缩处理
、
数据降噪处理以及数据清洗处理,得到处理后的若干已知的敏感词汇及其拼音
、
近义词汇以及同音词汇;根据处理后的若干已知的敏感词汇及其拼音
、
近义词汇以及同音词汇,构建敏感词汇语料库;使用爬虫工具,在互联网中采集中文或英文的若干通用词汇;根据敏感词汇语料库,对若干通用词汇中混入的已知的敏感词汇及其拼音
、
近义词汇以及同音词汇进行剔除,得到若干非敏感词汇;对若干非敏感词汇进行数据压缩处理
、
数据降噪处理以及数据清洗处理,得到处理后的若干非敏感词汇;根据处理后的若干非敏感词汇,构建非敏感词汇语料库
。3.
根据权利要求2所述的基于
NLP
的敏感词汇屏蔽方法,其特征在于:根据敏感词汇语料库和非敏感词汇语料库,使用
NLP
算法,构建敏感词汇识别模型,包括如下步骤:任意提取敏感词汇语料库中的已知的敏感词汇及其拼音
、
近义词汇以及同音词汇和非敏感词汇语料库中的非敏感词汇,构成若干训练文本数据;使用
NLP
算法中的
BERT
‑
BILSTM
‑
CRF
算法,构建初始的敏感词汇识别模型;使用
IWOA
寻优算法优化初始的敏感词汇识别模型的网络参数,并输入若干训练文本数据进行优化训练,得到最优的敏感词汇识别模型
。4.
根据权利要求3所述的基于
NLP
的敏感词汇屏蔽方法,其特征在于:所述的敏感词汇识别模型包括依次连接的输入层
、
设置有
BERT
预训练语言子模型的向量表征层
、BILSTM
层
、
特征融合层
、CRF
层以及输出层;引入
Circle
混沌序列初始化和动态反向学习策略对传统的
WOA
寻优算法进行改进,得到
IWOA
寻优算法;
Circle
混沌序列初始化的公式为:式中,
x
i+1,j+1
为
Circle
混沌映射生成的鲸鱼种群的初始位置;
x
i,j
为随机生成的鲸鱼种群的初始位置;
mod(
·
)
为
mod
函数;
i
为鲸鱼个体指示量;
j
为维度指示量;动态反向学习策略的公式为:
x'
ij
(t)
=
k(a
j
(t)+b
j
(t))
‑
x
ij
(t)
式中,
x'
ij
(t)、x
ij
(t)
分别为第
i
鲸鱼个体第
j
维的反向位置和正向位置;
a
j
(t)、b
j
(t)
分别为当前鲸鱼种群第
j
维的上界和下界;
k
为递减惯性因子,
k
=
0.9
‑
0.5D/D
max
;
D、D
max
分别为当前迭代次数和最大迭代次数;
t
为时刻指示量
。5.
根据权利要求4所述的基于
NLP
的敏感词汇屏蔽方法,其特征在于:使用
IWOA
寻优算法优化初始的敏感词汇识别模型的网络参数,包括如下步骤:将
BILSTM
层的隐含层神经元数量
、
隐含层神经元的初始权值和初始阈值以及初始学习率作为优化目标,即
IWOA
种群的鲸鱼个体的位置;初始化
IWOA
寻优算法的参数,并使用
Circle
混沌序列初始化
IWOA
种群;计算
IWOA
种群中每个鲸鱼个体的适应度值;进行包围猎物行为
、
泡泡网攻击行为或搜索猎物行为,更新鲸鱼个体和
IWOA
种群;对更新后的
IWOA
种群进行动态反向学习,得到
IWOA
种群中每个正向解对应的反向解,根据
IWOA
种群中所有正向解和所有反向解的鲸鱼个体的适应度值,筛选最优鲸鱼个体及其最优适应度值;若最优适应度值满...
【专利技术属性】
技术研发人员:陈竑,韩三普,
申请(专利权)人:北京深维智信科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。