System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数据脱敏处理方法、装置、设备及存储介质制造方法及图纸_技高网

数据脱敏处理方法、装置、设备及存储介质制造方法及图纸

技术编号:40195770 阅读:9 留言:0更新日期:2024-01-26 23:59
本申请提供一种数据脱敏处理方法、装置、设备及存储介质。该方法包括:获取用户目标数据;通过正则处理对用户目标数据进行第一脱敏处理,得到第一脱敏结果数据;根据基于历史脱敏标签数据进行机器学习的数据脱敏模型对第一脱敏结果数据进行第二脱敏处理,得到最终的脱敏数据。本申请的方法,提高了数据脱敏处理的准确性。

【技术实现步骤摘要】

本申请涉及大数据,尤其涉及一种数据脱敏处理方法、装置、设备及存储介质


技术介绍

1、数据脱敏是一个有效的方法,可帮助公司保护客户的基本信息,比如姓名、年龄、性别、所在城市、地址等。智能汽车行业有别于传统汽车行业,用户数据的来源更加互联网化,用户的数据也更具复杂性和多样性,由于保护用户个人隐私等原因,工单系统可以开放给企业员工内部查看,但是涉及到用户姓名、身份证号、地址等敏感信息需要脱敏处理,同时保证其他非敏感信息可以正常被员工查阅。

2、现有技术中主要依赖多组关键定位词定位、正则匹配固定格式、关键敏感词直接脱敏这三种传统的脱敏方式对敏感信息进行脱敏。

3、然而,仅通过传统的脱敏方式对待脱敏数据进行脱敏处理会导致脱敏不准确以及效率低的问题。


技术实现思路

1、本申请提供一种数据脱敏处理方法、装置、设备及存储介质,用以解决数据脱敏处理不准确的问题。

2、第一方面,本申请提供一种数据脱敏处理方法,包括:

3、获取用户目标数据;

4、通过正则处理对所述用户目标数据进行第一脱敏处理,得到第一脱敏结果数据;

5、根据基于历史脱敏标签数据进行机器学习的数据脱敏模型对所述第一脱敏结果数据进行第二脱敏处理,得到最终的脱敏数据。

6、在一种可能的设计中,所述方法还包括:所述数据脱敏模型包括:朴素贝叶斯模型、支持向量机模型和神经网络模型中的至少两个。

7、在一种可能的设计中,所述方法还包括:获取包括脱敏标签的历史用户数据;将所述包括脱敏标签的历史用户数据根据预设比例进行划分,得到模型训练集以及模型测试集;根据所述模型训练集对所述原始数据脱敏模型进行机器学习训练,得到训练后的原始数据脱敏模型;根据混淆矩阵以及所述模型测试集对所述训练后的原始数据脱敏模型进行测试,若测试通过,则将训练后的原始数据脱敏模型作为所述数据脱敏模型。

8、在一种可能的设计中,所述获取包括脱敏标签的历史用户数据,包括:获取历史用户数据;根据结巴算法对所述历史用户数据进行分词处理,得到分词处理结果数据;对所述分词处理结果数据进行格式转换处理,得到格式化转换结果数据;根据待脱敏类型对所述格式化转换结果数据进行脱敏标签标记处理;根据用户输入的补充脱敏标记对所述格式化转换结果数据进行补充脱敏标签标记处理,得到所述包括脱敏标签的历史用户数据。

9、在一种可能的设计中,所述根据基于历史脱敏标签数据进行机器学习的数据脱敏模型对所述第一脱敏结果数据进行第二脱敏处理,得到最终的脱敏数据,包括:将所述第一脱敏结果数据分别输入所述数据脱敏模型中的所述朴素贝叶斯模型、所述支持向量机模型和所述神经网络模型中的至少两个,得到所述第一脱敏结果数据中每个词的预测敏感概率值;根据所述第一脱敏结果数据中每个词的预测敏感概率值,生成所述第一脱敏结果数据中每个词的预测敏感标签;根据所述第一脱敏结果数据中每个词的预测敏感标签对所述第一脱敏结果数据进行第二脱敏处理,得到最终的脱敏数据。

10、在一种可能的设计中,所述将所述第一脱敏结果数据分别输入所述数据脱敏模型中的所述朴素贝叶斯模型、所述支持向量机模型和所述神经网络模型中的至少两个,得到所述第一脱敏结果数据中每个词的预测敏感概率值,包括:将所述第一脱敏结果数据分别输入所述朴素贝叶斯模型、所述支持向量机模型和所述神经网络模型中的至少两个,分别得到每个词的至少两个候选敏感概率值;将至少两个所述候选敏感概率值中的最高值确定为所述第一脱敏结果数据中每个词的预测敏感概率值。

11、在一种可能的设计中,所述根据所述第一脱敏结果数据中每个词的预测敏感概率值,生成所述第一脱敏结果数据中每个词的预测敏感标签,包括:若所述预测敏感概率值大于预设的敏感概率阈值,对应词的预测敏感标签为敏感;若所述预测敏感概率值小于或等于所述敏感概率阈值,对应词的预测敏感标签为不敏感。

12、在一种可能的设计中,所述根据所述模型训练集对原始所述数据脱敏模型进行机器学习训练,得到训练后的原始数据脱敏模型,包括:将所述模型训练集分别输入所述朴素贝叶斯模型、所述支持向量机模型和所述神经网络模型中的至少两个,得到所述模型训练集中每个词的预测敏感概率值;根据所述预测敏感概率值,生成所述模型训练集中每个词的预测敏感标签;根据所述模型训练集中每个词的预测敏感标签,以及每个词的所述脱敏标签,对所述朴素贝叶斯模型、所述支持向量机模型和所述神经网络模型中的至少两个的模型参数进行调整,得到训练后的原始数据脱敏模型。

13、在一种可能的设计中,所述根据混淆矩阵以及所述模型测试集对所述训练后的原始数据脱敏模型进行测试,包括:将所述模型测试集输入所述训练后的原始数据脱敏模型,输出所述模型测试集中每个词的预测敏感标签;根据所述混淆矩阵,对所述预测敏感标签以及所述敏感标签进行处理,得到所述训练后的原始数据脱敏模型的评估值。

14、在一种可能的设计中,所述根据混淆矩阵以及所述模型测试集对所述训练后的原始数据脱敏模型进行测试,还包括:若所述评估值达到评估阈值,则测试通过。

15、在一种可能的设计中,所述根据混淆矩阵以及所述模型测试集对所述训练后的原始数据脱敏模型进行测试,还包括:若所述原始数据脱敏模型的训练次数达到训练阈值,则测试通过。

16、在一种可能的设计中,所述方法还包括:对所述用户目标数据进行结构化处理,得到经过结构化处理的用户目标数据。

17、在一种可能的设计中,所述通过正则处理对所述用户目标数据进行第一脱敏处理,得到第一脱敏结果数据,包括:根据所述用户目标数据中的至少一组关键词确定待脱敏字段;通过预设的正则表达式确定待脱敏字段;对所述待脱敏字段进行脱敏处理,得到所述第一脱敏结果数据。

18、第二方面,本申请提供一种数据脱敏处理装置,包括:

19、获取模块,用于获取用户目标数据;

20、处理模块,用于通过正则处理对所述用户目标数据进行第一脱敏处理,得到第一脱敏结果数据;

21、所述处理模块,还用于根据基于历史脱敏标签数据进行机器学习的数据脱敏模型对所述第一脱敏结果数据进行第二脱敏处理,得到最终的脱敏数据。

22、第三方面,本申请提供一种数据脱敏处理设备,包括:

23、处理器,存储器,通信接口;

24、所述存储器用于存储所述处理器的可执行指令;

25、其中,所述处理器配置为经由执行所述可执行指令来执行如上第一方面所述的数据脱敏处理方法。

26、第四方面,本申请提供一种可读存储介质,包括:其上存储有计算机程序,所述计算机程序被处理器执行时实现执行如上第一方面所述的数据脱敏处理方法。

27、本申请提供的数据脱敏处理方法、装置、设备及存储介质,通过获取用户目标数据,通过正则处理对用户目标数据进行第一脱敏处理,得到第一脱敏结果数据,根据基于历史脱敏标签数据进行机器学习的数据脱敏模型对第一脱敏结果数据本文档来自技高网...

【技术保护点】

1.一种数据脱敏处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述数据脱敏模型包括:朴素贝叶斯模型、支持向量机模型和神经网络模型中的至少两个。

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,所述获取包括脱敏标签的历史用户数据,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据基于历史脱敏标签数据进行机器学习的数据脱敏模型对所述第一脱敏结果数据进行第二脱敏处理,得到最终的脱敏数据,包括:

6.根据权利要求5所述的方法,其特征在于,所述将所述第一脱敏结果数据分别输入所述数据脱敏模型中的所述朴素贝叶斯模型、所述支持向量机模型和所述神经网络模型中的至少两个,得到所述第一脱敏结果数据中每个词的预测敏感概率值,包括:

7.根据权利要求6所述的方法,其特征在于,所述根据所述第一脱敏结果数据中每个词的预测敏感概率值,生成所述第一脱敏结果数据中每个词的预测敏感标签,包括:

8.根据权利要求7所述的方法,其特征在于,所述根据所述模型训练集对原始数据脱敏模型进行机器学习训练,得到训练后的原始数据脱敏模型,包括:

9.根据权利要求8所述的方法,其特征在于,所述根据混淆矩阵以及所述模型测试集对所述训练后的原始数据脱敏模型进行测试,包括:

10.根据权利要求9所述的方法,其特征在于,所述根据混淆矩阵以及所述模型测试集对所述训练后的原始数据脱敏模型进行测试,还包括:

...

【技术特征摘要】

1.一种数据脱敏处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述数据脱敏模型包括:朴素贝叶斯模型、支持向量机模型和神经网络模型中的至少两个。

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,所述获取包括脱敏标签的历史用户数据,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据基于历史脱敏标签数据进行机器学习的数据脱敏模型对所述第一脱敏结果数据进行第二脱敏处理,得到最终的脱敏数据,包括:

6.根据权利要求5所述的方法,其特征在于,所述将所述第一脱敏结果数据分别输入所述数据脱敏模型中的所述朴素贝叶斯模型、所述支持向量机模型和...

【专利技术属性】
技术研发人员:周鹏程康操陆刚
申请(专利权)人:阿维塔科技重庆有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1