敏感信息检测方法、训练方法、装置、设备以及存储介质制造方法及图纸

技术编号：32230317 阅读：20 留言：0更新日期：2022-02-09 17:34

本公开提供了敏感信息检测方法、训练方法、装置、设备以及存储介质，涉及人工智能技术领域、互联网技术领域，尤其涉及数据安全技术领域。具体实现方案为：提取待检测文本中的特征信息，得到初始特征向量，其中，特征信息包括语句级别特征信息、句法结构特征信息和语义特征信息；对初始特征向量进行上下文特征提取，得到预测特征向量；以及基于预测特征向量，确定待检测文本中关于敏感信息的检测结果，其中，检测结果包括敏感信息类别检测结果和敏感信息位置检测结果。信息位置检测结果。信息位置检测结果。

全部详细技术资料下载

【技术实现步骤摘要】
敏感信息检测方法、训练方法、装置、设备以及存储介质

[0001]本公开涉及人工智能
、互联网
，尤其涉及数据安全
，具体涉及敏感信息检测方法、训练方法、装置、设备以及存储介质。

技术介绍

[0002]随着互联网技术的发展，存在海量的数据信息即将或者已经在互联网上传播，在海量的数据信息中，可能涉及个人隐私、财产安全或信息安全的信息，敏感信息的泄露将对相关个人、企业或组织机构造成严重的损失。

技术实现思路

[0003]本公开提供了一种敏感信息检测方法、训练方法、装置、电子设备、存储介质以及程序产品。
[0004]根据本公开的一方面，提供了一种敏感信息检测方法，包括：提取待检测文本中的特征信息，得到初始特征向量，其中，特征信息包括语句级别特征信息、句法结构特征信息和语义特征信息；对初始特征向量进行上下文特征提取，得到预测特征向量；以及基于预测特征向量，确定待检测文本中关于敏感信息的检测结果，其中，检测结果包括敏感信息类别检测结果和敏感信息位置检测结果。
[0005]根据本公开的另一方面，提供了一种敏感信息检测模型的训练方法，包括：利用训练样本训练敏感信息检测模型，得到训练后的敏感信息检测模型，其中，敏感信息检测模型用于：提取样本文本中的特征信息，生成样本初始特征向量，其中，特征信息包括语句级别特征信息、句法结构特征信息和语义特征信息；对样本初始特征向量进行上下文特征提取，得到样本预测特征向量；以及基于样本预测特征向量，确定样本文本中关于敏感信息的样本检测结果，其中，样本检测...

【技术保护点】

【技术特征摘要】
1.一种敏感信息检测方法，包括：提取待检测文本中的特征信息，得到初始特征向量，其中，所述特征信息包括语句级别特征信息、句法结构特征信息和语义特征信息；对所述初始特征向量进行上下文特征提取，得到预测特征向量；以及基于所述预测特征向量，确定所述待检测文本中关于敏感信息的检测结果，其中，所述检测结果包括敏感信息类别检测结果和敏感信息位置检测结果。2.根据权利要求1所述的方法，其中，所述提取待检测文本中的特征信息，生成初始特征向量包括：对所述待检测文本进行预处理，生成与所述待检测文本相对应的输入向量；以及利用特征提取模块提取所述输入向量中的所述特征信息，生成所述初始特征向量。3.根据权利要求1所述的方法，其中，所述对所述初始特征向量进行上下文特征提取，得到预测特征向量包括：利用上下文特征提取模块对所述初始特征向量进行上下文特征提取，得到所述预测特征向量。4.根据权利要求1所述的方法，其中，所述基于所述预测特征向量，确定所述待检测文本中关于敏感信息的检测结果包括：利用敏感信息分类器对所述预测特征向量进行处理，确定所述待检测文本中关于敏感信息的检测结果。5.根据权利要求1至4任一项所述的方法，还包括：基于所述检测结果，按照预定的敏感程度等级，确定所述待检测文本中的敏感信息的敏感程度级别。6.一种敏感信息检测模型的训练方法，包括：利用训练样本训练敏感信息检测模型，得到训练后的敏感信息检测模型，其中，所述敏感信息检测模型用于：提取样本文本中的特征信息，生成样本初始特征向量，其中，所述特征信息包括语句级别特征信息、句法结构特征信息和语义特征信息；对所述样本初始特征向量进行上下文特征提取，得到样本预测特征向量；以及基于所述样本预测特征向量，确定所述样本文本中关于敏感信息的样本检测结果，其中，所述样本检测结果包括样本敏感信息类别检测结果和样本敏感信息位置检测结果。7.根据权利要求6所述的方法，还包括：获取训练样本，其中，所述训练样本包括样本文本以及与所述样本文本相对应的标签序列，所述标签序列中多个标签元素与所述样本丈本中多个字一一对应，所述多个标签元素中的每个标签元素指示了与所述标签元素相对应的字与敏感信息的关系。8.根据权利要求7所述的方法，其中，所述利用训练样本训练敏感信息检测模型，得到训练后的敏感信息检测模型包括：将所述训练样本中的样本文本输入至所述敏感信息检测模型，得到样本检测结果；利用损失函数处理所述样本检测结果和所述标签序列，得到损失值；基于所述损失值调整所述敏感信息检测模型的参数，直至所述损失函数收敛；以及将所述损失函数收敛的模型作为所述训练后的敏感信息检测模型。
9.一种敏感信息检测装置，包括：初始特征提取模块，用于提取待检测文本中的特征信息，得到初始特征向量，其中，所述特征信息包括语句级别特征信息、句法结构特征信息和语义特征信息；预测特征提取模块，用于对所述初始特征向量进行上下文特征提取，得到预测特征向量；以及检测结果确定模块，用于基于所述预测特征向量，确定所述待检测文本中关于敏感信息的检测结果，其中，所述检测结果包括敏感信息类...

【专利技术属性】
技术研发人员：杜悦艺，许艳茹，孙亚生，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人