一种基于制造技术

技术编号:39593845 阅读:6 留言:0更新日期:2023-12-03 19:49
本发明专利技术属于敏感词汇屏蔽技术领域,公开了一种基于

【技术实现步骤摘要】
一种基于NLP的敏感词汇屏蔽方法及系统


[0001]本专利技术属于敏感词汇屏蔽
,具体涉及一种基于
NLP
的敏感词汇屏蔽方法及系统


技术介绍

[0002]根据监管和安全的要求,互联网上的流通文件中存在的一些敏感词汇,例如,用户的姓名

身份证或手机号码等隐私信息,不合适的言论等敏感信息,企业的名称

信息

核心技术或员工情况等商业信息,需要进行屏蔽

[0003]现有技术存在的缺陷:
[0004]1)
现有的敏感词汇屏蔽算法只能识别出某些关键的敏感词汇,而对于敏感词汇的拼音

字形相近

音形相近或同义词无法进行识别,导致屏蔽敏感词汇的准确率低;
[0005]2)
现有的敏感词汇屏蔽算法利用敏感词库做字符串匹配,从而实现敏感词识别,这种方式的效率低,并且只能对纯文本文件进行敏感词汇屏蔽,对于图像文件或视频文件则无法进行文本识别和敏感词汇屏蔽,实用性低


技术实现思路

[0006]为了解决现有技术存在的屏蔽敏感词汇的准确率低,效率低以及实用性低的问题,本专利技术目的在于提供一种基于
NLP
的敏感词汇屏蔽方法及系统

[0007]本专利技术所采用的技术方案为:
[0008]一种基于
NLP
的敏感词汇屏蔽方法,包括如下步骤:
[0009]构建敏感词汇语料库和非敏感词汇语料库;
[0010]根据敏感词汇语料库和非敏感词汇语料库,使用
NLP
算法,构建敏感词汇识别模型;
[0011]对待分析文件进行文本提取,得到待分析文本;
[0012]使用分词算法,对待分析文本进行分词处理,得到待分析词序列;
[0013]将待分析词序列输入敏感词汇识别模型进行敏感词汇识别,得到待分析词序列的敏感词汇;
[0014]根据敏感词汇语料库,对待分析词序列的敏感词汇进行核验,若核验结果为真实,则使用屏蔽符号替换待分析词序列的敏感词汇,得到敏感词汇屏蔽后词序列,否则,将待分析词序列重新进行敏感词汇识别;
[0015]根据敏感词汇屏蔽后词序列,得到敏感词汇屏蔽后文本,并将敏感词汇屏蔽后文本加载至待分析文件,得到敏感词汇屏蔽后文件

[0016]进一步地,构建敏感词汇语料库和非敏感词汇语料库,包括如下步骤:
[0017]使用爬虫工具,在互联网中抓取中文或英文的若干已知的敏感词汇;
[0018]抓取若干已知的敏感词汇的拼音

近义词汇以及同音词汇;
[0019]对若干已知的敏感词汇及其拼音

近义词汇以及同音词汇进行数据压缩处理


据降噪处理以及数据清洗处理,得到处理后的若干已知的敏感词汇及其拼音

近义词汇以及同音词汇;
[0020]根据处理后的若干已知的敏感词汇及其拼音

近义词汇以及同音词汇,构建敏感词汇语料库;
[0021]使用爬虫工具,在互联网中采集中文或英文的若干通用词汇;
[0022]根据敏感词汇语料库,对若干通用词汇中混入的已知的敏感词汇及其拼音

近义词汇以及同音词汇进行剔除,得到若干非敏感词汇;
[0023]对若干非敏感词汇进行数据压缩处理

数据降噪处理以及数据清洗处理,得到处理后的若干非敏感词汇;
[0024]根据处理后的若干非敏感词汇,构建非敏感词汇语料库

[0025]进一步地,根据敏感词汇语料库和非敏感词汇语料库,使用
NLP
算法,构建敏感词汇识别模型,包括如下步骤:
[0026]任意提取敏感词汇语料库中的已知的敏感词汇及其拼音

近义词汇以及同音词汇和非敏感词汇语料库中的非敏感词汇,构成若干训练文本数据;
[0027]使用
NLP
算法中的
BERT

BILSTM

CRF
算法,构建初始的敏感词汇识别模型;
[0028]使用
IWOA
寻优算法优化初始的敏感词汇识别模型的网络参数,并输入若干训练文本数据进行优化训练,得到最优的敏感词汇识别模型

[0029]进一步地,敏感词汇识别模型包括依次连接的输入层

设置有
BERT
预训练语言子模型的向量表征层
、BILSTM


特征融合层
、CRF
层以及输出层;
[0030]引入
Circle
混沌序列初始化和动态反向学习策略对传统的
WOA
寻优算法进行改进,得到
IWOA
寻优算法;
[0031]Circle
混沌序列初始化的公式为:
[0032][0033]式中,
x
i+1,j+1

Circle
混沌映射生成的鲸鱼种群的初始位置;
x
i,j
为随机生成的鲸鱼种群的初始位置;
mod(
·
)

mod
函数;
i
为鲸鱼个体指示量;
j
为维度指示量;
[0034]动态反向学习策略的公式为:
[0035]x'
ij
(t)

k(a
j
(t)+b
j
(t))

x
ij
(t)
[0036]式中,
x'
ij
(t)、x
ij
(t)
分别为第
i
鲸鱼个体第
j
维的反向位置和正向位置;
a
j
(t)、b
j
(t)
分别为当前鲸鱼种群第
j
维的上界和下界;
k
为递减惯性因子,
k

0.9

0.5D/D
max

D、D
max
分别为当前迭代次数和最大迭代次数;
t
为时刻指示量

[0037]进一步地,使用
IWOA
寻优算法优化初始的敏感词汇识别模型的网络参数,包括如下步骤:
[0038]将
BILSTM
层的隐含层神经元数量

隐含层神经元的初始权值和初始阈值以及初始学习率作为优化目标,即
IWOA
种群的鲸鱼个体的位置;
[0039]初始化
IWOA
寻本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于
NLP
的敏感词汇屏蔽方法,其特征在于:包括如下步骤:构建敏感词汇语料库和非敏感词汇语料库;根据敏感词汇语料库和非敏感词汇语料库,使用
NLP
算法,构建敏感词汇识别模型;对待分析文件进行文本提取,得到待分析文本;使用分词算法,对待分析文本进行分词处理,得到待分析词序列;将待分析词序列输入敏感词汇识别模型进行敏感词汇识别,得到待分析词序列的敏感词汇;根据敏感词汇语料库,对待分析词序列的敏感词汇进行核验,若核验结果为真实,则使用屏蔽符号替换待分析词序列的敏感词汇,得到敏感词汇屏蔽后词序列,否则,将待分析词序列重新进行敏感词汇识别;根据敏感词汇屏蔽后词序列,得到敏感词汇屏蔽后文本,并将敏感词汇屏蔽后文本加载至待分析文件,得到敏感词汇屏蔽后文件
。2.
根据权利要求1所述的基于
NLP
的敏感词汇屏蔽方法,其特征在于:构建敏感词汇语料库和非敏感词汇语料库,包括如下步骤:使用爬虫工具,在互联网中抓取中文或英文的若干已知的敏感词汇;抓取若干已知的敏感词汇的拼音

近义词汇以及同音词汇;对若干已知的敏感词汇及其拼音

近义词汇以及同音词汇进行数据压缩处理

数据降噪处理以及数据清洗处理,得到处理后的若干已知的敏感词汇及其拼音

近义词汇以及同音词汇;根据处理后的若干已知的敏感词汇及其拼音

近义词汇以及同音词汇,构建敏感词汇语料库;使用爬虫工具,在互联网中采集中文或英文的若干通用词汇;根据敏感词汇语料库,对若干通用词汇中混入的已知的敏感词汇及其拼音

近义词汇以及同音词汇进行剔除,得到若干非敏感词汇;对若干非敏感词汇进行数据压缩处理

数据降噪处理以及数据清洗处理,得到处理后的若干非敏感词汇;根据处理后的若干非敏感词汇,构建非敏感词汇语料库
。3.
根据权利要求2所述的基于
NLP
的敏感词汇屏蔽方法,其特征在于:根据敏感词汇语料库和非敏感词汇语料库,使用
NLP
算法,构建敏感词汇识别模型,包括如下步骤:任意提取敏感词汇语料库中的已知的敏感词汇及其拼音

近义词汇以及同音词汇和非敏感词汇语料库中的非敏感词汇,构成若干训练文本数据;使用
NLP
算法中的
BERT

BILSTM

CRF
算法,构建初始的敏感词汇识别模型;使用
IWOA
寻优算法优化初始的敏感词汇识别模型的网络参数,并输入若干训练文本数据进行优化训练,得到最优的敏感词汇识别模型
。4.
根据权利要求3所述的基于
NLP
的敏感词汇屏蔽方法,其特征在于:所述的敏感词汇识别模型包括依次连接的输入层

设置有
BERT
预训练语言子模型的向量表征层
、BILSTM


特征融合层
、CRF
层以及输出层;引入
Circle
混沌序列初始化和动态反向学习策略对传统的
WOA
寻优算法进行改进,得到
IWOA
寻优算法;
Circle
混沌序列初始化的公式为:式中,
x
i+1,j+1

Circle
混沌映射生成的鲸鱼种群的初始位置;
x
i,j
为随机生成的鲸鱼种群的初始位置;
mod(
·
)

mod
函数;
i
为鲸鱼个体指示量;
j
为维度指示量;动态反向学习策略的公式为:
x'
ij
(t)

k(a
j
(t)+b
j
(t))

x
ij
(t)
式中,
x'
ij
(t)、x
ij
(t)
分别为第
i
鲸鱼个体第
j
维的反向位置和正向位置;
a
j
(t)、b
j
(t)
分别为当前鲸鱼种群第
j
维的上界和下界;
k
为递减惯性因子,
k

0.9

0.5D/D
max

D、D
max
分别为当前迭代次数和最大迭代次数;
t
为时刻指示量
。5.
根据权利要求4所述的基于
NLP
的敏感词汇屏蔽方法,其特征在于:使用
IWOA
寻优算法优化初始的敏感词汇识别模型的网络参数,包括如下步骤:将
BILSTM
层的隐含层神经元数量

隐含层神经元的初始权值和初始阈值以及初始学习率作为优化目标,即
IWOA
种群的鲸鱼个体的位置;初始化
IWOA
寻优算法的参数,并使用
Circle
混沌序列初始化
IWOA
种群;计算
IWOA
种群中每个鲸鱼个体的适应度值;进行包围猎物行为

泡泡网攻击行为或搜索猎物行为,更新鲸鱼个体和
IWOA
种群;对更新后的
IWOA
种群进行动态反向学习,得到
IWOA
种群中每个正向解对应的反向解,根据
IWOA
种群中所有正向解和所有反向解的鲸鱼个体的适应度值,筛选最优鲸鱼个体及其最优适应度值;若最优适应度值满...

【专利技术属性】
技术研发人员:陈竑韩三普
申请(专利权)人:北京深维智信科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1