System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及计算机,特别涉及一种敏感信息识别方法、敏感信息识别装置、电子设备、计算机可读存储介质。
技术介绍
1、敏感信息识别是指识别信息中是否包含敏感词汇,敏感信息识别对于网络环境、用户心理以及社会秩序具有深远的影响。
2、在传统的敏感信息识别方法中,由于敏感文本的表达形式多种多样,使其无法对敏感信息进行准确识别。
技术实现思路
1、本申请提供一种敏感信息识别方法、识别装置、电子设备、计算机可读存储介质,可以提高对敏感信息的识别效果。
2、第一方面,本申请提供了一种敏感信息识别方法,该敏感信息识别方法包括:对目标文本信息进行分词处理,得到所述目标文本信息对应的分词信息;将所述分词信息输入文本识别模型,得到所述分词信息对应的分词语义特征;根据所述分词语义特征以及不同敏感类别的类别标签信息对应的标签语义特征,确定所述分词信息是否为敏感分词信息,得到所述分词信息的敏感识别结果;根据所述分词信息的敏感识别结果,识别所述目标文本信息是否为敏感信息。
3、第二方面,本申请提供了一种敏感信息识别装置,该敏感信息识别装置包括:文本分词模块,用于对目标文本信息进行分词处理,得到所述目标文本信息对应的分词信息;特征提取模块,用于将所述分词信息输入文本识别模型,得到所述分词信息对应的分词语义特征;分词识别模块,用于根据所述分词语义特征以及不同敏感类别的类别标签信息对应的标签语义特征,确定所述分词信息是否为敏感分词信息,得到所述分词信息的敏感识别结果;文本识别模块,用于
4、第三方面,本申请提供了一种电子设备,该电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序,一个或多个所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的敏感信息识别方法。
5、第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序在被处理器/处理核执行时实现上述的敏感信息识别方法。
6、本申请所提供的实施例,首先,通过对目标文本信息进行分词处理,得到目标文本信息对应的分词信息;其次,通过将分词信息输入训练好的文本识别模型,得到分词信息对应的分词语义特征;然后,根据分词语义特征以及不同敏感类别的类别标签信息对应的标签语义特征,来确定分词信息是否为敏感分词信息,得到分词信息的敏感识别结果,从而能够基于不同敏感类别的类别标签信息的语义特征对分词信息进行敏感识别,提高了对分词信息的敏感识别准确率;最后,根据目标文本信息对应的分词信息的敏感识别结果,即可识别目标文本信息是否为敏感信息。由此可见,在本申请实施例中,通过对目标文本信息对应的分词信息进行敏感信息识别,提高了对文本信息的敏感识别细粒度,并且,在对目标文本信息对应的分词信息进行敏感识别时,融合了不同敏感类别对应的类别标签信息的标签语义特征,提高了对文本信息的敏感识别准确率。
7、应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
本文档来自技高网...【技术保护点】
1.一种敏感信息识别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述标签语义特征包括敏感信息类别对应的第一标签语义特征以及非敏感信息类别对应的第二标签语义特征,所述根据所述分词语义特征以及不同敏感类别的类别标签信息对应的标签语义特征,确定所述分词信息是否为敏感分词信息,得到所述分词信息的敏感识别结果,包括:
3.根据权利要求1所述的方法,其特征在于,所述文本识别模型包括用于提取分词信息特征的第一特征提取层、用于提取类别标签信息特征的第二特征提取层以及特征分类层,所述文本识别模型通过以下方式训练得到:
4.根据权利要求3所述的方法,其特征在于,所述敏感信息训练样本通过以下方式生成:
5.根据权利要求4所述的方法,其特征在于,所述预设信息生成方式包括关联词生成方式,则所述根据所述目标敏感词以及预设信息生成方式构建信息生成指令,将所述信息生成指令输入预设文本生成模型,生成敏感信息训练样本,包括:
6.根据权利要求1-5任一项所述的方法,其特征在于,所述对目标文本信息进行分词处理包括:将所述目标文
7.根据权利要求1-5任一项所述的方法,其特征在于,在所述根据所述分词信息的敏感识别结果,识别所述目标文本信息是否为敏感信息之后,所述方法还包括:
8.一种敏感信息识别装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序在被处理器执行时实现如权利要求1-7中任一项所述的敏感信息识别方法。
...【技术特征摘要】
1.一种敏感信息识别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述标签语义特征包括敏感信息类别对应的第一标签语义特征以及非敏感信息类别对应的第二标签语义特征,所述根据所述分词语义特征以及不同敏感类别的类别标签信息对应的标签语义特征,确定所述分词信息是否为敏感分词信息,得到所述分词信息的敏感识别结果,包括:
3.根据权利要求1所述的方法,其特征在于,所述文本识别模型包括用于提取分词信息特征的第一特征提取层、用于提取类别标签信息特征的第二特征提取层以及特征分类层,所述文本识别模型通过以下方式训练得到:
4.根据权利要求3所述的方法,其特征在于,所述敏感信息训练样本通过以下方式生成:
5.根据权利要求4所述的方法,其特征在于,所述预设信息生成方式包括关联词生成方式,则所...
【专利技术属性】
技术研发人员:严争辉,
申请(专利权)人:北京中科金得助智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。