一种面向非结构化文本数据的隐私合规方法技术

技术编号：41508651 阅读：3 留言：0更新日期：2024-05-30 14:48

本发明专利技术公开了一种面向非结构化文本数据的隐私合规方法，包括S1、获取训练文本数据，对训练文本数据进行数据预处理；S2、基于Transformer技术构建隐私合规检测网络；S3、利用无标签文本数据对隐私合规检测网络进行领域预训练；S4、利用Fine‑tuning结合领域预训练模型参数及语句标注的训练文本数据对隐私合规检测网络进行微调训练；S5、获取待检测文本数据并进行数据预处理；S6、将待检测文本数据送入隐私合规检测网络进行计算，判断语句是否含有敏感信息；S7、对含有敏感信息的语句，定位敏感信息所处位置并进行敏感信息的分类，取相同类别的敏感信息文本进行替换。S8、将含有敏感信息的语句进行替换。本发明专利技术提升了深度学习方法数据合规检测方向的可用性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据合规检测，尤其涉及一种面向非结构化文本数据的隐私合规方法。

技术介绍

1、数据正成为新一代生产要素，在各行各业发挥着至关重要的作用。随着信息化和数字产业化的不断发展，各行各业积累了丰富的数据资源，结合机器学习、深度学习、数据挖掘等技术，生产生活方式正发生日新月异的变化，例如：利用数据分析产业发展过程，优化产业结构，提升生产能力；通过人脸识别和个人生物数据实现便捷支付、智慧出行；使用卫生健康数据进行医学分析，提升医疗服务水平等。数据的高效流通及安全交易是数据广泛应用、赋能社会生产、带动经济发展的必要前提。gb/t 35273-2020《信息安全技术个人信息安全规范》中，对个人信息去标识化做出了明确规定：收集个人信息后,个人信息控制者宜立即进行去标识化处理,并采取技术和管理方面的措施，将可用于恢复识别个人的信息与去标识化后的信息分开存储并加强访问和使用的权限管理。个人数据敏感信息的检测和脱敏是去标签化的主要难点和关键点。

2、现有方法往往针对结构化数据中的敏感信息进行检测和脱敏，例如将结构化数据中的姓名、联系方式、住址等字段进行处理，以保护个人隐私不被泄露。然而，在实际数据交易流通过程中，往往在非结构化字段中留存个人敏感信息，例如在司法数据中，对于司法案件的描述涉及被告方和原告方的个人敏感数据。仅针对结构化数据的脱敏以及不完全的数据脱敏方法将对数据资源带来巨大安全隐患，严重影响数据要素的流通交易、阻碍数字经济发展。由于数据体量的快速增长以及海量的现存数据，无法对非结构数据中的隐私合规进行人工检测和识别。

3、因此，如何提供一种面向非结构化文本数据的隐私合规方法是本领域技术人员亟需解决的问题。

技术实现思路

1、本专利技术的一个目的在于提出一种面向非结构化文本数据的隐私合规方法，本专利技术与现有技术相比通过仿生数据的方式增加负样本容量，解决了海量数据费时费力的人工标注问题，大幅提升了深度学习方法数据合规检测方向的可用性。

2、根据本专利技术实施例的一种面向非结构化文本数据的隐私合规方法，包括如下步骤：

3、s1、获取训练文本数据，并对训练文本数据进行数据预处理，包括数据清洗、语句拆分和语句标注；

4、s2、基于transformer技术构建隐私合规检测网络；

5、s3、利用无标签文本数据对隐私合规检测网络进行领域预训练；

6、s4、利用fine-tuning方法结合领域预训练模型参数及语句标注的训练文本数据对隐私合规检测网络进行微调训练；

7、s5、获取待检测文本数据并进行数据预处理，包括数据清洗和语句拆分；

8、s6、将待检测文本数据送入训练好的隐私合规检测网络进行计算，判断语句是否含有敏感信息；

9、s7、对含有敏感信息的语句，定位敏感信息所处位置并进行敏感信息的分类，取相同类别的敏感信息文本进行替换。

10、s8、将含有敏感信息的语句，取其softmax激活函数前激活值大于阈值的文本内容进行替换。

11、可选的，所述s1包括以下步骤：

12、s11、获取三种类型训练文本数据：一般性文本数据、领域相关文本数据、隐私增强标识文本数据；

13、s12、设定语句拆分，对于一般性文本数据和领域相关文本数据，按照句号进行拆分，每一句话为一条数据，对于隐私增强标识文本数据，按照可拆分最小单位进行拆分；

14、s13、设定数据标注，对拆分后的训练文本数据进行标注，标注标准为每条数据中是否包含隐私信息，隐私信息包括人名、手机号、身份证号、地址信息和组织名称，利用隐私增强标识数据构建隐私数据集。

15、可选的，所述一般性文本数据为通用自然语言文本数据，是训练语言模型的任何数据，所述领域相关文本数据为行业希望进行脱敏数据的类似数据，所述隐私增强标识文本数据为身份证号、人名、地点和联系方式数据，各字段之间没有相互关系。

16、可选的，所述s2包括以下步骤：

17、s21、设定隐私合规检测网络，隐私合规检测网络包括敏感信息预训练网络和敏感信息检测网络，所述敏感信息预训练网络用于从无标签数据中学习文本数据中语义上下文特征，所述敏感信息检测网络用于判断输入的语句中是否包含敏感信息；

18、s22、利用transformer构建敏感信息预训练网络，调用bert-base-chinese通用语言模型参数初始化敏感信息预训练网络；

19、s23、利用transformer构建敏感信息检测网络，输入为经过语句拆分的训练文本数据，输出为0,1标量，1表示输入训练文本数据中含有敏感信息，0表示输入训练文本数据中不含有敏感信息。

20、可选的，所述s3包括设定隐私合规检测网络的预训练，删除敏感信息检测网络最后的dropout层和全连接层，将数据输入敏感信息预训练网络，按照预设的概率选取tokenizer进行mask处理，隐私合规检测网络模型训练loss为经过mask处理后输出值减去未经过mask处理后的输出值，对loss进行反向传播，使用adamw优化器对模型参数进行调整。

21、可选的，所述s4包括设定隐私合规检测网络的微调训练，将敏感信息预训练网络训练后的参数作为隐私合规检测网络的初始化参数，利用带标签的数据和网络输出结果计算loss，使用adamw优化器对模型参数进行调整。

22、可选的，所述s5包括以下步骤：

23、s51、获取待检测数据；

24、s52、待检测数据的预处理，将待检测数据以语句为单位进行分割，形成若干项待检测数据条。

25、可选的，所述s6包括以下步骤：

26、s61、将预处理后的待检测数据输入隐私合规检测网络进行检测，得到隐私合规检测结果；

27、s62、选取网络输出结果为1的语句送入隐私合规检测网络，提取全连接层之前的卷积层，接softmax函数后得到语句中各文字tokenizer的评分值，取大于阈值的文字标记为隐私文字。

28、可选的，所述s7包括以下步骤：

29、s71、将检测到的敏感信息文本送入隐私合规检测网络，取softmax函数前的向量作为敏感信息的特征向量；

30、s72、从敏感信息增强数据集中的每个类别中随机抽取100条数据，送入隐私合规检测网络，用softmax函数前的向量取平均后作为该类别的特征向量，即：

31、；

32、其中，为隐私类别。

33、s73、计算敏感信息特征向量和类别特征向量的欧式距离，取欧式距离最小的类别作为敏感信息的信息类别，即：

34、；

35、其中，为欧氏距离函数。

36、可选的，所述s8包括将敏感信息所属类别的隐私增强标识文本数据集作为候选数据集，从候选数据集中随机一条数据替换敏感信息，在替换后，删除候选替换集合中的相应数值，并记录替换前隐私部分本文档来自技高网...

【技术保护点】

1.一种面向非结构化文本数据的隐私合规方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种面向非结构化文本数据的隐私合规方法，其特征在于，所述S1包括以下步骤：

3.根据权利要求2所述的一种面向非结构化文本数据的隐私合规方法，其特征在于，所述一般性文本数据为通用自然语言文本数据，是训练语言模型的任何数据，所述领域相关文本数据为行业希望进行脱敏数据的类似数据，所述隐私增强标识文本数据为身份证号、人名、地点和联系方式数据，各字段之间没有相互关系。

4.根据权利要求2所述的一种面向非结构化文本数据的隐私合规方法，其特征在于，所述S2包括以下步骤：

5.根据权利要求4所述的一种面向非结构化文本数据的隐私合规方法，其特征在于，所述S3包括设定隐私合规检测网络的预训练，删除敏感信息检测网络最后的Dropout层和全连接层，将数据输入敏感信息预训练网络，按照预设的概率选取tokenizer进行mask处理，隐私合规检测网络模型训练loss为经过mask处理后输出值减去未经过mask处理后的输出值，对loss进行反向传播，使用AdamW优化器对模型参数进行调整。

6.根据权利要求5所述的一种面向非结构化文本数据的隐私合规方法，其特征在于，所述S4包括设定隐私合规检测网络的微调训练，将敏感信息预训练网络训练后的参数作为隐私合规检测网络的初始化参数，利用带标签的数据和网络输出结果计算loss，使用AdamW优化器对模型参数进行调整。

7.根据权利要求6所述的一种面向非结构化文本数据的隐私合规方法，其特征在于，所述S5包括以下步骤：

8.根据权利要求7所述的一种面向非结构化文本数据的隐私合规方法，其特征在于，所述S6包括以下步骤：

9.根据权利要求8所述的一种面向非结构化文本数据的隐私合规方法，其特征在于，所述S7包括以下步骤：

10.根据权利要求8所述的一种面向非结构化文本数据的隐私合规方法，其特征在于，所述S8包括将敏感信息所属类别的隐私增强标识文本数据集作为候选数据集，从候选数据集中随机一条数据替换敏感信息，在替换后，删除候选替换集合中的相应数值，并记录替换前隐私部分数据和替换后数据的映射关系，用于对数据进行恢复。

...

【技术特征摘要】

1.一种面向非结构化文本数据的隐私合规方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种面向非结构化文本数据的隐私合规方法，其特征在于，所述s1包括以下步骤：

4.根据权利要求2所述的一种面向非结构化文本数据的隐私合规方法，其特征在于，所述s2包括以下步骤：

5.根据权利要求4所述的一种面向非结构化文本数据的隐私合规方法，其特征在于，所述s3包括设定隐私合规检测网络的预训练，删除敏感信息检测网络最后的dropout层和全连接层，将数据输入敏感信息预训练网络，按照预设的概率选取tokenizer进行mask处理，隐私合规检测网络模型训练loss为经过mask处理后输出值减去未经过mask处理后的输出值，对loss进行反向传...

【专利技术属性】
技术研发人员：滕越，林传文，王佐成，董士风，吴光周，田聪聪，崔海鹰，
申请(专利权)人：数据空间研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人