敏感信息识别模型的构建、敏感信息识别方法及装置制造方法及图纸

技术编号：32817563 阅读：24 留言：0更新日期：2022-03-26 20:14

本发明专利技术实施例涉及一种敏感信息识别模型的构建、敏感信息识别方法及装置，包括：对样本文本进行预处理，得到至少两组样本字符，以及获取每组样本字符中的每个样本字符的敏感状态标签；基于至少两组样本字符，确定每组样本字符中的每个样本字符对应的多维向量，得到至少两组多维向量；将至少两组多维向量输入至初始模型中，进行学习训练，直至初始模型的输出结果与敏感状态标签的相似度大于或等于设定阈值，则确定初始模型训练完成，将训练好的初始模型作为敏感信息识别模型，由本方法，通过对文本进行预处理，使用不同的字符完成敏感信息识别模型的训练，可以提高模型对敏感信息的识别率。识别率。识别率。

全部详细技术资料下载

【技术实现步骤摘要】
敏感信息识别模型的构建、敏感信息识别方法及装置

[0001]本专利技术实施例涉及信息识别领域，尤其涉及一种敏感信息识别模型的构建、敏感信息识别方法及装置。

技术介绍

[0002]区块链上的信息有多种表现形式，其中文本形式是常见的表现形式之一。为了杜绝非法信息或敏感信息通过区块链传播，需要构建区块链专门的监管解决方案，对用户提交的内容进行自动识别，确认是否为非法或敏感信息。如果是非法信息则阻止发布信息，并上报监管系统提示监管部门进行关注和处理。
[0003]目前，针对区块链的监管技术研究相对不足，区块链敏感信息识别技术的研究也比较欠缺，可以利用互联网领域的信息监管方式完成区块链敏感信息识别，在互联网领域，当前常用的信息监管方式有基于关键词的文本过滤方法，系统根据预先预设的多个与不良信息相关的关键词，在输入文本中进行查找，如果在输入文本中发现与关键词相匹配的内容，则对这部分内容或全部输入文本进行过滤或替换处理；还有利用基于统计机器学习的文本分类的方法，这类方法一般将输入的文本表示为向量空间模型，根据出现的字符或者词语构建特征向量，并联合TF*IDF统计方法来表达词或者向量空间模型，然后采用机器学习或者神经网络的方法对特征向量进行分类；此外，还有利用深度学习的方法实现对用户提交的文本的自动识别，阻止有害信息的传播。
[0004]但是，在互联网领域常用的基于关键词的文本过滤方法，只能过滤出与关键词完全匹配的文本，这种方法对提交的文本内容查找是否存在关键词列表中的词，如果存在则认为是非法内容。这种方法处理效率高...

【技术保护点】

【技术特征摘要】
1.一种敏感信息识别模型的构建方法，其特征在于，包括：对样本文本进行预处理，得到至少两组样本字符，以及获取每组样本字符中的每个样本字符的敏感状态标签；基于所述至少两组样本字符，确定每组样本字符中的每个样本字符对应的多维向量，得到至少两组多维向量；将所述至少两组多维向量输入至初始模型中，进行学习训练，直至所述初始模型的输出结果与所述敏感状态标签的相似度大于或等于设定阈值，则确定所述初始模型训练完成，将训练好的初始模型作为敏感信息识别模型，其中，所述初始模型包括至少两个浅层神经网络子模型。2.根据权利要求1所述的方法，其特征在于，所述对样本文本进行预处理，得到至少两组样本字符，包括：预设不同类型文字对应的字符转换方式；基于所述字符转换方式，将所述样本文本中的不同类型文字转换成对应的目标字符；对全部所述目标字符进行分词处理，得到至少两组样本字符。3.根据权利要求2所述的方法，其特征在于，所述基于所述至少两组样本字符，确定每组样本字符中的每个样本字符对应的多维向量，得到至少两组多维向量之后，所述方法还包括：基于所述多维向量对应的目标字符在所述样本文本中出现的顺序，将每组中的多维向量组成一个多维向量序列，得到至少两个多维向量序列。4.根据权利要求3所述的方法，其特征在于，所述将所述至少两组多维向量输入至初始模型中，进行学习训练，包括：将所述至少两个多维向量序列分别输入到所述初始模型中的至少两个浅层神经网络子模型中，进行学习训练。5.根据权利要求4所述的方法，其特征在于，所述直至所述初始模型的输出结果与所述敏感状态标签的相似度大于或等于设定阈值，则确定所述初始模型训练完成，将训练好的初始模型作为敏感信息识别模型，包括：对所述至少两个浅层神经网络子模型的输出结果进行数据处理，得到所述初始模型的输出结果；将所述初始模型的输出结果与所述敏感状态标签进行对比，得到所述初始模型的输出结果与所述敏感状态标签的相似度；在所述相似度大于或等于所述设定阈值时，确定所述初始模型训练完成，将训练好的初始模型作为敏感信息识别模型。6.根据权利要求5所述的方法，其特征在于，所述方法还包括：对所述敏感信息识别模型进行优化训练。7.一种敏感信息识别方法，其特征在于，包括：获取用户端发送的待传输的目标文本，对所述目标文本进行预处理，得到至少两组目标字符...

【专利技术属性】
技术研发人员：谢志勇，李仁刚，张闯，任智新，孙颉，
申请(专利权)人：苏州浪潮智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人