敏感信息识别模型的构建、敏感信息识别方法及装置制造方法及图纸

技术编号:32817563 阅读:24 留言:0更新日期:2022-03-26 20:14
本发明专利技术实施例涉及一种敏感信息识别模型的构建、敏感信息识别方法及装置,包括:对样本文本进行预处理,得到至少两组样本字符,以及获取每组样本字符中的每个样本字符的敏感状态标签;基于至少两组样本字符,确定每组样本字符中的每个样本字符对应的多维向量,得到至少两组多维向量;将至少两组多维向量输入至初始模型中,进行学习训练,直至初始模型的输出结果与敏感状态标签的相似度大于或等于设定阈值,则确定初始模型训练完成,将训练好的初始模型作为敏感信息识别模型,由本方法,通过对文本进行预处理,使用不同的字符完成敏感信息识别模型的训练,可以提高模型对敏感信息的识别率。识别率。识别率。

【技术实现步骤摘要】
敏感信息识别模型的构建、敏感信息识别方法及装置


[0001]本专利技术实施例涉及信息识别领域,尤其涉及一种敏感信息识别模型的构建、敏感信息识别方法及装置。

技术介绍

[0002]区块链上的信息有多种表现形式,其中文本形式是常见的表现形式之一。为了杜绝非法信息或敏感信息通过区块链传播,需要构建区块链专门的监管解决方案,对用户提交的内容进行自动识别,确认是否为非法或敏感信息。如果是非法信息则阻止发布信息,并上报监管系统提示监管部门进行关注和处理。
[0003]目前,针对区块链的监管技术研究相对不足,区块链敏感信息识别技术的研究也比较欠缺,可以利用互联网领域的信息监管方式完成区块链敏感信息识别,在互联网领域,当前常用的信息监管方式有基于关键词的文本过滤方法,系统根据预先预设的多个与不良信息相关的关键词,在输入文本中进行查找,如果在输入文本中发现与关键词相匹配的内容,则对这部分内容或全部输入文本进行过滤或替换处理;还有利用基于统计机器学习的文本分类的方法,这类方法一般将输入的文本表示为向量空间模型,根据出现的字符或者词语构建特征向量,并联合TF*IDF统计方法来表达词或者向量空间模型,然后采用机器学习或者神经网络的方法对特征向量进行分类;此外,还有利用深度学习的方法实现对用户提交的文本的自动识别,阻止有害信息的传播。
[0004]但是,在互联网领域常用的基于关键词的文本过滤方法,只能过滤出与关键词完全匹配的文本,这种方法对提交的文本内容查找是否存在关键词列表中的词,如果存在则认为是非法内容。这种方法处理效率高,但误识率也高。例如,在电子商务网站中,将“窃听器”定义为过滤关键词,但是现有的文本过滤方法会将“禁止销售窃听器”这样合法文本也视为不良信息进行过滤。另外,由于非法用户也会对文本内容的关键词进行变体逃避识别系统的识别和过滤,比如,将“发票”写成“发漂”等。这种基于关键词的匹配方法,识别正确率较低,无法满足信息过滤的实际应用需求。

技术实现思路

[0005]鉴于此,为解决上述技术问题或部分技术问题,本专利技术实施例提供一种敏感信息识别模型的构建、敏感信息识别方法及装置。
[0006]第一方面,本专利技术实施例提供一种敏感信息识别模型的构建方法,包括:对样本文本进行预处理,得到至少两组样本字符,以及获取每组样本字符中的每个样本字符的敏感状态标签;基于所述至少两组样本字符,确定每组样本字符中的每个样本字符对应的多维向量,得到至少两组多维向量;将所述至少两组多维向量输入至初始模型中,进行学习训练,直至所述初始模型的输出结果与所述敏感状态标签的相似度大于或等于设定阈值,则确定所述初始模型训练
完成,将训练好的初始模型作为敏感信息识别模型,其中,所述初始模型包括至少两个浅层神经网络子模型。
[0007]在一个可能的实施方式中,所述方法还包括:预设不同类型文字对应的字符转换方式;基于所述字符转换方式,将所述样本文本中的不同类型文字转换成对应的目标字符;对全部所述目标字符进行分词处理,得到至少两组样本字符。
[0008]在一个可能的实施方式中,所述方法还包括:基于所述多维向量对应的目标字符在所述样本文本中出现的顺序,将每组中的多维向量组成一个多维向量序列,得到至少两个多维向量序列。
[0009]在一个可能的实施方式中,所述方法还包括:将所述至少两个多维向量序列分别输入到所述初始模型中的至少两个浅层神经网络子模型中,进行学习训练。
[0010]在一个可能的实施方式中,所述方法还包括:对所述至少两个浅层神经网络子模型的输出结果进行数据处理,得到所述初始模型的输出结果;将所述初始模型的输出结果与所述敏感状态标签进行对比,得到所述初始模型的输出结果与所述敏感状态标签的相似度;在所述相似度大于或等于所述设定阈值时,确定所述初始模型训练完成,将训练好的初始模型作为敏感信息识别模型。
[0011]在一个可能的实施方式中,所述方法还包括:对所述敏感信息识别模型进行优化训练。
[0012]第二方面,本专利技术实施例提供一种敏感信息识别方法,包括:获取用户端发送的待传输的目标文本,对所述目标文本进行预处理,得到至少两组目标字符;基于所述至少两组目标字符,确定每组目标字符中的每个目标字符对应的目标多维向量,得到至少两组目标多维向量;将所述至少两组目标多维向量输入至敏感信息识别模型中,以使所述敏感信息识别模型输出所述目标文本中的敏感信息。
[0013]在一个可能的实施方式中,所述方法还包括:若所述目标文本中存在敏感信息,则将所述敏感信息发送给所述用户端,以及禁止所述目标文本的传输;若所述目标文本中未存在敏感信息,则允许所述目标文本的传输。
[0014]第三方面,本专利技术实施例提供一种敏感信息识别模型的构建装置,包括:获取模块,对样本文本进行预处理,得到至少两组样本字符,以及获取每组样本字符中的每个样本字符的敏感状态标签;确定模块,用于基于所述至少两组样本字符,确定每组样本字符中的每个样本字符对应的多维向量,得到至少两组多维向量;训练模块,用于将所述至少两组多维向量输入至初始模型中,进行学习训练,直至
所述初始模型的输出结果与所述敏感状态标签的相似度大于或等于设定阈值,则确定所述初始模型训练完成,将训练好的初始模型作为敏感信息识别模型,其中,所述初始模型包括至少两个浅层神经网络子模型。
[0015]第四方面,本专利技术实施例提供一种敏感信息识别装置,包括:获取模块,用于获取用户端发送的待传输的目标文本,对所述目标文本进行预处理,得到至少两组目标字符;确定模块,用于基于所述至少两组目标字符,确定每组目标字符中的每个目标字符对应的目标多维向量,得到至少两组目标多维向量;识别模块,用于将所述至少两组目标多维向量输入至敏感信息识别模型中,以使所述敏感信息识别模型输出所述目标文本中的敏感信息。
[0016]第五方面,本专利技术实施例提供一种计算机设备,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的敏感信息识别模型的构建和敏感信息识别程序,以实现上述第一方面中所述的敏感信息识别模型的构建方法和上述第二方面中所述的敏感信息识别方法。
[0017]第六方面,本专利技术实施例提供一种存储介质,包括:所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述第一方面中所述的敏感信息识别模型的构建方法和上述第二方面中所述的敏感信息识别方法。
[0018]本专利技术实施例提供的敏感信息识别模型的构建方案,通过对样本文本进行预处理,得到至少两组样本字符,以及获取每组样本字符中的每个样本字符的敏感状态标签;基于所述至少两组样本字符,确定每组样本字符中的每个样本字符对应的多维向量,得到至少两组多维向量;将所述至少两组多维向量输入至初始模型中,进行学习训练,直至所述初始模型的输出结果与所述敏感状态标签的相似度大于或等于设定阈值,则确定所述初始模型训练完成,将训练好的初始模型作为敏感信息识别模型,其中,所述初始模型包括至少两个浅层神经网络子模型,相比于现有技术的文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种敏感信息识别模型的构建方法,其特征在于,包括:对样本文本进行预处理,得到至少两组样本字符,以及获取每组样本字符中的每个样本字符的敏感状态标签;基于所述至少两组样本字符,确定每组样本字符中的每个样本字符对应的多维向量,得到至少两组多维向量;将所述至少两组多维向量输入至初始模型中,进行学习训练,直至所述初始模型的输出结果与所述敏感状态标签的相似度大于或等于设定阈值,则确定所述初始模型训练完成,将训练好的初始模型作为敏感信息识别模型,其中,所述初始模型包括至少两个浅层神经网络子模型。2.根据权利要求1所述的方法,其特征在于,所述对样本文本进行预处理,得到至少两组样本字符,包括:预设不同类型文字对应的字符转换方式;基于所述字符转换方式,将所述样本文本中的不同类型文字转换成对应的目标字符;对全部所述目标字符进行分词处理,得到至少两组样本字符。3.根据权利要求2所述的方法,其特征在于,所述基于所述至少两组样本字符,确定每组样本字符中的每个样本字符对应的多维向量,得到至少两组多维向量之后,所述方法还包括:基于所述多维向量对应的目标字符在所述样本文本中出现的顺序,将每组中的多维向量组成一个多维向量序列,得到至少两个多维向量序列。4.根据权利要求3所述的方法,其特征在于,所述将所述至少两组多维向量输入至初始模型中,进行学习训练,包括:将所述至少两个多维向量序列分别输入到所述初始模型中的至少两个浅层神经网络子模型中,进行学习训练。5.根据权利要求4所述的方法,其特征在于,所述直至所述初始模型的输出结果与所述敏感状态标签的相似度大于或等于设定阈值,则确定所述初始模型训练完成,将训练好的初始模型作为敏感信息识别模型,包括:对所述至少两个浅层神经网络子模型的输出结果进行数据处理,得到所述初始模型的输出结果;将所述初始模型的输出结果与所述敏感状态标签进行对比,得到所述初始模型的输出结果与所述敏感状态标签的相似度;在所述相似度大于或等于所述设定阈值时,确定所述初始模型训练完成,将训练好的初始模型作为敏感信息识别模型。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:对所述敏感信息识别模型进行优化训练。7.一种敏感信息识别方法,其特征在于,包括:获取用户端发送的待传输的目标文本,对所述目标文本进行预处理,得到至少两组目标字符...

【专利技术属性】
技术研发人员:谢志勇李仁刚张闯任智新孙颉
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1