一种基于制造技术

技术编号：39593845 阅读：6 留言：0更新日期：2023-12-03 19:49

本发明专利技术属于敏感词汇屏蔽技术领域，公开了一种基于

全部详细技术资料下载

【技术实现步骤摘要】
一种基于NLP的敏感词汇屏蔽方法及系统

[0001]本专利技术属于敏感词汇屏蔽
，具体涉及一种基于
NLP
的敏感词汇屏蔽方法及系统
。

技术介绍

[0002]根据监管和安全的要求，互联网上的流通文件中存在的一些敏感词汇，例如，用户的姓名
、
身份证或手机号码等隐私信息，不合适的言论等敏感信息，企业的名称
、
信息
、
核心技术或员工情况等商业信息，需要进行屏蔽
。
[0003]现有技术存在的缺陷：
[0004]1)
现有的敏感词汇屏蔽算法只能识别出某些关键的敏感词汇，而对于敏感词汇的拼音
、
字形相近
、
音形相近或同义词无法进行识别，导致屏蔽敏感词汇的准确率低；
[0005]2)
现有的敏感词汇屏蔽算法利用敏感词库做字符串匹配，从而实现敏感词识别，这种方式的效率低，并且只能对纯文本文件进行敏感词汇屏蔽，对于图像文件或视频文件则无法进行文本识别和敏感词汇屏蔽，实用性低
。

技术实现思路

[0006]为了解决现有技术存在的屏蔽敏感词汇的准确率低，效率低以及实用性低的问题，本专利技术目的在于提供一种基于
NLP
的敏感词汇屏蔽方法及系统
。
[0007]本专利技术所采用的技术方案为：
[0008]一种基于
NLP
的敏感词汇屏蔽方法，包括如下步骤：
[0009]构建敏感词汇语料...

【技术保护点】

【技术特征摘要】
1.
一种基于
NLP
的敏感词汇屏蔽方法，其特征在于：包括如下步骤：构建敏感词汇语料库和非敏感词汇语料库；根据敏感词汇语料库和非敏感词汇语料库，使用
NLP
算法，构建敏感词汇识别模型；对待分析文件进行文本提取，得到待分析文本；使用分词算法，对待分析文本进行分词处理，得到待分析词序列；将待分析词序列输入敏感词汇识别模型进行敏感词汇识别，得到待分析词序列的敏感词汇；根据敏感词汇语料库，对待分析词序列的敏感词汇进行核验，若核验结果为真实，则使用屏蔽符号替换待分析词序列的敏感词汇，得到敏感词汇屏蔽后词序列，否则，将待分析词序列重新进行敏感词汇识别；根据敏感词汇屏蔽后词序列，得到敏感词汇屏蔽后文本，并将敏感词汇屏蔽后文本加载至待分析文件，得到敏感词汇屏蔽后文件
。2.
根据权利要求1所述的基于
NLP
的敏感词汇屏蔽方法，其特征在于：构建敏感词汇语料库和非敏感词汇语料库，包括如下步骤：使用爬虫工具，在互联网中抓取中文或英文的若干已知的敏感词汇；抓取若干已知的敏感词汇的拼音
、
近义词汇以及同音词汇；对若干已知的敏感词汇及其拼音
、
近义词汇以及同音词汇进行数据压缩处理
、
数据降噪处理以及数据清洗处理，得到处理后的若干已知的敏感词汇及其拼音
、
近义词汇以及同音词汇；根据处理后的若干已知的敏感词汇及其拼音
、
近义词汇以及同音词汇，构建敏感词汇语料库；使用爬虫工具，在互联网中采集中文或英文的若干通用词汇；根据敏感词汇语料库，对若干通用词汇中混入的已知的敏感词汇及其拼音
、
近义词汇以及同音词汇进行剔除，得到若干非敏感词汇；对若干非敏感词汇进行数据压缩处理
、
数据降噪处理以及数据清洗处理，得到处理后的若干非敏感词汇；根据处理后的若干非敏感词汇，构建非敏感词汇语料库
。3.
根据权利要求2所述的基于
NLP
的敏感词汇屏蔽方法，其特征在于：根据敏感词汇语料库和非敏感词汇语料库，使用
NLP
算法，构建敏感词汇识别模型，包括如下步骤：任意提取敏感词汇语料库中的已知的敏感词汇及其拼音
、
近义词汇以及同音词汇和非敏感词汇语料库中的非敏感词汇，构成若干训练文本数据；使用
NLP
算法中的
BERT
‑
BILSTM
‑
CRF
算法，构建初始的敏感词汇识别模型；使用
IWOA
寻优算法优化初始的敏感词汇识别模型的网络参数，并输入若干训练文本数据进行优化训练，得到最优的敏感词汇识别模型
。4.
根据权利要求3所述的基于
NLP
的敏感词汇屏蔽方法，其特征在于：所述的敏感词汇识别模型包括依次连接的输入层
、
设置有
BERT
预训练语言子模型的向量表征层
、BILSTM
层
、
特征融合层
、CRF
层以及输出层；引入
Circle
混沌序列初始化和动态反向学习策略对传统的
WOA
寻优算法进行改进，得到
IWOA
寻优算法；
Circle
混沌序列初始化的公式为：式中，
x
i+1,j+1
为
Circle
混沌映射生成的鲸鱼种群的初始位置；
x
i,j
为随机生成的鲸鱼种群的初始位置；
mod(
·
)
为
mod
函数；
i
为鲸鱼个体指示量；
j
为维度指示量；动态反向学习策略的公式为：
x'
ij
(t)
＝
k(a
j
(t)+b
j
(t))
‑
x
ij
(t)
式中，
x'
ij
(t)、x
ij
(t)
分别为第
i
鲸鱼个体第
j
维的反向位置和正向位置；
a
j
(t)、b
j
(t)
分别为当前鲸鱼种群第
j
维的上界和下界；
k
为递减惯性因子，
k
＝
0.9
‑
0.5D/D
max
；
D、D
max
分别为当前迭代次数和最大迭代次数；
t
为时刻指示量
。5.
根据权利要求4所述的基于
NLP
的敏感词汇屏蔽方法，其特征在于：使用
IWOA
寻优算法优化初始的敏感词汇识别模型的网络参数，包括如下步骤：将
BILSTM
层的隐含层神经元数量
、
隐含层神经元的初始权值和初始阈值以及初始学习率作为优化目标，即
IWOA
种群的鲸鱼个体的位置；初始化
IWOA
寻优算法的参数，并使用
Circle
混沌序列初始化
IWOA
种群；计算
IWOA
种群中每个鲸鱼个体的适应度值；进行包围猎物行为
、
泡泡网攻击行为或搜索猎物行为，更新鲸鱼个体和
IWOA
种群；对更新后的
IWOA
种群进行动态反向学习，得到
IWOA
种群中每个正向解对应的反向解，根据
IWOA
种群中所有正向解和所有反向解的鲸鱼个体的适应度值，筛选最优鲸鱼个体及其最优适应度值；若最优适应度值满...

【专利技术属性】
技术研发人员：陈竑，韩三普，
申请(专利权)人：北京深维智信科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人