敏感信息检测方法、训练方法、装置、设备以及存储介质制造方法及图纸

技术编号:32230317 阅读:20 留言:0更新日期:2022-02-09 17:34
本公开提供了敏感信息检测方法、训练方法、装置、设备以及存储介质,涉及人工智能技术领域、互联网技术领域,尤其涉及数据安全技术领域。具体实现方案为:提取待检测文本中的特征信息,得到初始特征向量,其中,特征信息包括语句级别特征信息、句法结构特征信息和语义特征信息;对初始特征向量进行上下文特征提取,得到预测特征向量;以及基于预测特征向量,确定待检测文本中关于敏感信息的检测结果,其中,检测结果包括敏感信息类别检测结果和敏感信息位置检测结果。信息位置检测结果。信息位置检测结果。

【技术实现步骤摘要】
敏感信息检测方法、训练方法、装置、设备以及存储介质


[0001]本公开涉及人工智能
、互联网
,尤其涉及数据安全
,具体涉及敏感信息检测方法、训练方法、装置、设备以及存储介质。

技术介绍

[0002]随着互联网技术的发展,存在海量的数据信息即将或者已经在互联网上传播,在海量的数据信息中,可能涉及个人隐私、财产安全或信息安全的信息,敏感信息的泄露将对相关个人、企业或组织机构造成严重的损失。

技术实现思路

[0003]本公开提供了一种敏感信息检测方法、训练方法、装置、电子设备、存储介质以及程序产品。
[0004]根据本公开的一方面,提供了一种敏感信息检测方法,包括:提取待检测文本中的特征信息,得到初始特征向量,其中,特征信息包括语句级别特征信息、句法结构特征信息和语义特征信息;对初始特征向量进行上下文特征提取,得到预测特征向量;以及基于预测特征向量,确定待检测文本中关于敏感信息的检测结果,其中,检测结果包括敏感信息类别检测结果和敏感信息位置检测结果。
[0005]根据本公开的另一方面,提供了一种敏感信息检测模型的训练方法,包括:利用训练样本训练敏感信息检测模型,得到训练后的敏感信息检测模型,其中,敏感信息检测模型用于:提取样本文本中的特征信息,生成样本初始特征向量,其中,特征信息包括语句级别特征信息、句法结构特征信息和语义特征信息;对样本初始特征向量进行上下文特征提取,得到样本预测特征向量;以及基于样本预测特征向量,确定样本文本中关于敏感信息的样本检测结果,其中,样本检测结果包括样本敏感信息类别检测结果和样本敏感信息位置检测结果。
[0006]根据本公开的另一方面,提供了一种敏感信息检测装置,包括:初始特征提取模块,用于提取待检测文本中的特征信息,得到初始特征向量,其中,特征信息包括语句级别特征信息、句法结构特征信息和语义特征信息;预测特征提取模块,用于对初始特征向量进行上下文特征提取,得到预测特征向量;以及检测结果确定模块,用于基于预测特征向量,确定待检测文本中关于敏感信息的检测结果,其中,检测结果包括敏感信息类别检测结果和敏感信息位置检测结果。
[0007]根据本公开的另一方面,一种敏感信息检测模型的训练装置,包括:训练模块,用于利用训练样本训练敏感信息检测模型,得到训练后的敏感信息检测模型,其中,敏感信息检测模型用于:提取样本文本中的特征信息,生成样本初始特征向量,其中,特征信息包括语句级别特征信息、句法结构特征信息和语义特征信息;对样本初始特征向量进行上下文特征提取,得到样本预测特征向量;以及基于样本预测特征向量,确定样本文本中关于敏感信息的样本检测结果,其中,样本检测结果包括样本敏感信息类别检测结果和样本敏感信
息位置检测结果。
[0008]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方法。
[0009]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如上所述的方法。
[0010]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的方法。
[0011]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0012]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0013]图1示意性示出了根据本公开实施例的可以应用敏感信息检测方法及装置的示例性系统架构;
[0014]图2示意性示出了根据本公开实施例的敏感信息检测方法的流程图;
[0015]图3示意性示出了根据本公开实施例的敏感信息检测方法的应用场景图;
[0016]图4示意性示出了根据本公开实施例的敏感信息检测模型的训练方法的流程图;
[0017]图5示意性示出了根据本公开实施例的敏感信息检测模型的训练方法的应用场景图;
[0018]图6示意性示出了根据本公开实施例的敏感信息检测装置的框图;
[0019]图7示意性示出了根据本公开实施例的敏感信息检测模型的训练装置的框图;以及
[0020]图8示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。
具体实施方式
[0021]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0022]本公开提供了敏感信息检测方法、训练方法、装置、电子设备、存储介质以及程序产品。
[0023]根据本公开的实施例,敏感信息检测方法包括:提取待检测文本中的特征信息,得到初始特征向量,其中,特征信息包括语句级别特征信息、句法结构特征信息和语义特征信息;对初始特征向量进行上下文特征提取,得到预测特征向量;以及基于预测特征向量,确定待检测文本中关于敏感信息的检测结果,其中,检测结果包括敏感信息类别检测结果和敏感信息位置检测结果。
[0024]根据本公开的实施例,利用初始特征提取操作,能够从待检测文本中提取完整信
息,防止信息缺失的问题;利用上下文特征提取操作,能够得到深层次特征信息,兼顾局部信息和全局信息;由初始特征提取操作和上下文特征提取操作结合,使得后续敏感信息的检测精度提高。
[0025]本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
[0026]图1示意性示出了根据本公开实施例的可以应用敏感信息检测方法及装置的示例性系统架构。
[0027]需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的
技术实现思路
,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如,在另一实施例中,可以应用敏感信息检测方法及装置的示例性系统架构可以包括终端设备,但终端设备可以无需与服务器进行交互,即可实现本公开实施例提供的内容处理方法及装置。
[0028]如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等等。
[0029]用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种敏感信息检测方法,包括:提取待检测文本中的特征信息,得到初始特征向量,其中,所述特征信息包括语句级别特征信息、句法结构特征信息和语义特征信息;对所述初始特征向量进行上下文特征提取,得到预测特征向量;以及基于所述预测特征向量,确定所述待检测文本中关于敏感信息的检测结果,其中,所述检测结果包括敏感信息类别检测结果和敏感信息位置检测结果。2.根据权利要求1所述的方法,其中,所述提取待检测文本中的特征信息,生成初始特征向量包括:对所述待检测文本进行预处理,生成与所述待检测文本相对应的输入向量;以及利用特征提取模块提取所述输入向量中的所述特征信息,生成所述初始特征向量。3.根据权利要求1所述的方法,其中,所述对所述初始特征向量进行上下文特征提取,得到预测特征向量包括:利用上下文特征提取模块对所述初始特征向量进行上下文特征提取,得到所述预测特征向量。4.根据权利要求1所述的方法,其中,所述基于所述预测特征向量,确定所述待检测文本中关于敏感信息的检测结果包括:利用敏感信息分类器对所述预测特征向量进行处理,确定所述待检测文本中关于敏感信息的检测结果。5.根据权利要求1至4任一项所述的方法,还包括:基于所述检测结果,按照预定的敏感程度等级,确定所述待检测文本中的敏感信息的敏感程度级别。6.一种敏感信息检测模型的训练方法,包括:利用训练样本训练敏感信息检测模型,得到训练后的敏感信息检测模型,其中,所述敏感信息检测模型用于:提取样本文本中的特征信息,生成样本初始特征向量,其中,所述特征信息包括语句级别特征信息、句法结构特征信息和语义特征信息;对所述样本初始特征向量进行上下文特征提取,得到样本预测特征向量;以及基于所述样本预测特征向量,确定所述样本文本中关于敏感信息的样本检测结果,其中,所述样本检测结果包括样本敏感信息类别检测结果和样本敏感信息位置检测结果。7.根据权利要求6所述的方法,还包括:获取训练样本,其中,所述训练样本包括样本文本以及与所述样本文本相对应的标签序列,所述标签序列中多个标签元素与所述样本丈本中多个字一一对应,所述多个标签元素中的每个标签元素指示了与所述标签元素相对应的字与敏感信息的关系。8.根据权利要求7所述的方法,其中,所述利用训练样本训练敏感信息检测模型,得到训练后的敏感信息检测模型包括:将所述训练样本中的样本文本输入至所述敏感信息检测模型,得到样本检测结果;利用损失函数处理所述样本检测结果和所述标签序列,得到损失值;基于所述损失值调整所述敏感信息检测模型的参数,直至所述损失函数收敛;以及将所述损失函数收敛的模型作为所述训练后的敏感信息检测模型。
9.一种敏感信息检测装置,包括:初始特征提取模块,用于提取待检测文本中的特征信息,得到初始特征向量,其中,所述特征信息包括语句级别特征信息、句法结构特征信息和语义特征信息;预测特征提取模块,用于对所述初始特征向量进行上下文特征提取,得到预测特征向量;以及检测结果确定模块,用于基于所述预测特征向量,确定所述待检测文本中关于敏感信息的检测结果,其中,所述检测结果包括敏感信息类...

【专利技术属性】
技术研发人员:杜悦艺许艳茹孙亚生
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1