文本数据传输的隐私信息保护系统及其方法技术方案

技术编号:37994915 阅读:16 留言:0更新日期:2023-06-30 10:09
本发明专利技术涉及文本数据传输的隐私信息保护系统及方法,数据预处理模块,将占文本总比例少的隐私文本抽出替换;文图转换模块,将隐私文本转为抽象隐私图;文本编码模块,将文本转化为可理解的数据类型和计算单元;图像编码模块,将图像转换为可理解的数据类型和计算单元;编码混合模块,根据位置信息将文本编码与图像编码融合。将文本进行数据预处理,将隐私文本从原文本当中抽离替换;通过数据预处理模块将占文本比例少的隐私文本从其他非隐私文本中抽离;将文本转换为图像,将图像保护的方法引入文本处理中,减少运算时间,增加数据特征表示在被使用时隐私性的同时,保留特征信息,降低对下游任务模型训练性能的影响。降低对下游任务模型训练性能的影响。降低对下游任务模型训练性能的影响。

【技术实现步骤摘要】
文本数据传输的隐私信息保护系统及其方法


[0001]本专利技术涉及一种文本数据传输的隐私信息保护系统及方法。

技术介绍

[0002]目前,基于大数据训练的深度学习在自然语言处理中的应用逐渐增多,特别是在医疗健康等与民生相关的领域。由大量数据训练后获得的不同用途的模型使使用者能够快速而准确地获得信息;然而,在模型地训练与使用过程中通常包含了许多隐私文本,如含有个人健康信息(Personal Health Information,PHI)的电子健康记录(Electronic Health Record,EHR)。各场景中的模型通常分为数据表征提取部分与下游任务部分,特征提取部分需要将数据中的各种信息进行提取与编码并根据下游任务进一步获得与下游任务相关的数据特征,由特征提取之后的数据特征表示向量是下游任务能够正常运行的前提。但在获得数据特征表示的同时,数据中的隐私数据将暴露于巨大的风险中,不法分子可以通过特殊方式窃取隐私数据,并通过逆向编码等方式获取数据的原始形式。2020年中,全世界发生了多起医疗数据泄露事件,其中患者和医护人员的私人信息被泄露并严重影响了相关人员及其家人的生理以及心理健康,在社会上造成了不良的影响。一旦在发生大规模的隐私泄露,应用于不同场景下的模型将失去使用价值与信任,社会安全也将收到危害。各国出台了各项法律法规以保障信息安全,如我国制定了《中华人民共和国网络安全法》。
[0003]许多研究人员已经对如何确保文本数据中的隐私信息的安全展开了大量研究,匿名化与去识别是当前隐私保护的主要措施,匿名化采取的措施是对隐私数据隐藏或删除,而去识别化则对数据与使用者之间的识别连接进行切断,后者对隐私信息的保护效果更好,且后者正由资源密集型的人工去识别转向效率更高与成本更低的自动去识别化,这一过程仍需要人工手动注释数据集。

技术实现思路

[0004]本专利技术的目的是克服现有技术存在的不足,提供一种文本数据传输的隐私信息保护系统及其方法,保证数据特征信息低损失。
[0005]本专利技术的目的通过以下技术方案来实现:
[0006]文本数据传输的隐私信息保护系统,特点是:包含数据预处理模块、文图转换模块、文本编码模块、图像编码模块和编码混合模块;
[0007]所述数据预处理模块,将占文本总比例少的隐私文本抽出替换;
[0008]所述文图转换模块,将隐私文本转为抽象隐私图;
[0009]所述文本编码模块,将文本转化为可理解的数据类型和计算单元;
[0010]所述图像编码模块,将图像转换为可理解的数据类型和计算单元;
[0011]所述编码混合模块,根据位置信息将文本编码与图像编码融合得到可用于下游任务的隐私保护混合特征表示向量。
[0012]进一步地,上述的文本数据传输的隐私信息保护系统,其中,所述数据预处理模块
包含隐私文本替换模块和隐私文本抽取模块,所述隐私文本替换模块,用于将文本中的隐私文本替换为非隐私文本,并保留隐私文本的位置信息;所述隐私文本抽取模块,用于得到所有文本中的隐私文本数据。
[0013]进一步地,上述的文本数据传输的隐私信息保护系统,其中,所述文图转换模块,将数据预处理模块中抽取的隐私文本进行由文本到抽象文本的转换。
[0014]进一步地,上述的文本数据传输的隐私信息保护系统,其中,所述文本编码模块,将数据预处理模块处理后的非隐私文本数据采用Bi

LSTM编码,提供单词边界信息;将前向和后向嵌入连接起来作为字符级单词向量表示;用相同的编码网络得到词级向量表示;将字符级单词向量序列与词级向量序列相结合,生成综合的文本特征表示向量集。
[0015]进一步地,上述的文本数据传输的隐私信息保护系统,其中,所述图像编码模块,将文图转换模块得到的隐私图采用CNN编码,并在编码的过程中利用DP

SGD进行优化对数据保护,同时对图像进行特征提取形成图像的向量表示。
[0016]进一步地,上述的文本数据传输的隐私信息保护系统,其中,所述编码混合模块,将文本编码模块与图像编码模块得到的两类编码向量根据隐私文本替换模块保存的位置信息进行融合插入。
[0017]本专利技术文本数据传输的隐私信息保护方法,包括以下步骤:
[0018]首先,对文本数据进行数据预处理;
[0019]然后,数据预处理之后的图像数据进行CNN编码,并在训练过程中利用DP

SGD算法进行优化,形成具有隐私保护性能的图像特征表示向量;将文本数据进行Bi

LSTM编码,并将字符级向量序列与词典相结合,形成综合的文本特征表示向量集;
[0020]继而,将数据预处理之后的文本数据进行BiLSTM编码,并将生成的字符级向量序列与词典相结合,得到综合的文本特征表示向量集;将文图转换后的隐私图像进行CNN(DP

SGD)编码,得到具有隐私性的图像特征表征向量;
[0021]之后,将文本特征表示向量集与图像特征表示向量按照数据预处理时保存的位置信息,将图像表示向量插入文本的表示向量集中进行替换融合;
[0022]最后,输出混合特征表示向量集,作为最终输出,作为可实际使用且具有隐私保护的数据特征表示向量集。
[0023]更进一步地,上述的文本数据传输的隐私信息保护方法,其中,由数据预处理模块,对文本数据进行文本分离替换;由文图转换模块,将隐私文本转换为抽象隐私图;由文本编码模块,对文本序列采用BiLSTM编码;由图像编码模块,对图像序列采用以DP

SGD进行优化的CNN编码;由编码混合模块,将文本特征表示向量集与图像特征表示向量融合。
[0024]更进一步地,上述的文本数据传输的隐私信息保护方法,其中,
[0025]数据预处理模块包含隐私文本替换模块和隐私文本抽取模块,隐私文本替换模块,用于将文本文档中的隐私文本替换为非隐私文本,并保留隐私文本的位置信息;隐私文本抽取模块,用于得到所有文本中的隐私文本数据;
[0026]由文图转换模块,将文档中的隐私文本转换为隐私图的形式;隐私图包含字符图与标签图,字符图以首尾映射、前向映射以及反向映射三种规则进行映射;首尾映射在R通道将词的首尾两个字符以字符映射图为基准进行映射;前向映射在字符映射图的G通道将词的前半部分字符进行连续映射得到前向映射图;反向映射图在字符映射图的B通道,先将
词的后半部分反序再进行连续映射得到反向映射图;得到三个映射图后将其叠加得到字符图,标签图利用前向映射的规则得到;最后将字符图与标签图叠加得到隐私图;
[0027]由文本编码模块,将文本数据采用Bi

LSTM编码处理成可理解和处理的编码序列;其采用记忆门,遗忘门来计算词向量,并对文本序列的前后词信息及其特征进行捕捉,以此来学习实体的边界和长距离的依赖关系,记忆门和遗忘门的计算如下:
[0028]计算遗忘门,为减少计算量,需遗忘部分的信息,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.文本数据传输的隐私信息保护系统,其特征在于:包含数据预处理模块(1)、文图转换模块(2)、文本编码模块(3)、图像编码模块(4)以及编码混合模块(5);所述数据预处理模块(1),将占文本总比例少的隐私文本抽出替换;所述文图转换模块(2),将隐私文本转为抽象隐私图;所述文本编码模块(3),将文本转化为可理解的数据类型和计算单元;所述图像编码模块(4),将图像转换为可理解的数据类型和计算单元;所述编码混合模块(5),根据位置信息将文本编码与图像编码融合得到能用于下游任务的隐私保护混合特征表示向量。2.根据权利要求1所述的文本数据传输的隐私信息保护系统,其特征在于:所述数据预处理模块(1)包含隐私文本替换模块(101)和隐私文本抽取模块(102),所述隐私文本替换模块(101),用于将文本中的隐私文本替换为非隐私文本,并保留隐私文本的位置信息;所述隐私文本抽取模块(102),用于得到所有文本中的隐私文本数据。3.根据权利要求1所述的文本数据传输的隐私信息保护系统,其特征在于:所述文图转换模块(2),将数据预处理模块(1)中抽取的隐私文本进行由文本到抽象文本的转换。4.根据权利要求1所述的文本数据传输的隐私信息保护系统,其特征在于:所述文本编码模块(3),将数据预处理模块(1)处理后的非隐私文本数据采用Bi

LSTM编码,提供单词边界信息;将前向和后向嵌入连接起来作为字符级单词向量表示;用相同的编码网络得到词级向量表示;将字符级单词向量序列与词级向量序列相结合,生成综合的文本特征表示向量集。5.根据权利要求1所述的文本数据传输的隐私信息保护系统,其特征在于:所述图像编码模块(4),将文图转换模块(2)得到的隐私图采用CNN编码,并在编码的过程中利用DP

SGD优化对数据保护,同时对图像进行特征提取形成图像的向量表示。6.根据权利要求1所述的文本数据传输的隐私信息保护系统,其特征在于:所述编码混合模块(5),将文本编码模块(3)与图像编码模块(4)得到的两类编码向量根据隐私文本替换模块(101)保存的位置信息进行融合插入。7.权利要求1所述的系统实现文本数据传输的隐私信息保护方法,其特征在于:包括以下步骤:首先,对文本进行数据预处理;然后,数据预处理之后的图像数据进行CNN编码,并在训练过程中利用DP

SGD算法进行优化,形成具有隐私保护性能的图像特征表示;将文本数据进行Bi

LSTM编码,并将字符级向量序列与词典相结合,形成综合的文本表示向量集;继而,将数据预处理之后的文本数据进行Bi

LSTM编码,并将生成的字符级向量序列与词典相结合,得到综合的文本特征表示向量集;将文图转换后的隐私图像进行CNN(DP

SGD)编码,得到具有隐私性的图像表示向量;之后,将文本特征表示向量集与图像特征表示向量按照数据预处理时保存的位置信息,将图像表示向量插入文本特征表示向量集中进行替换融合;最后,输出混合特征表示向量集,作为最终输出,该输出能作为可实际使用且具有隐私保护的数据特征表示向量集。8.根据权利要求7所述的文本数据传输的隐私信息保护方法,其特征在于:由数据预处
理模块(1),对文本文档进行文本分离替换;由文图转换模块(2),将隐私文本转换为抽象隐私图;由文本编码模块(3),对文本序列采用BiLSTM编码;由图像编码模块(4),对图像序列采用以DP

SGD进行优化的CNN编码;由编码混合模块(5),将文本特征表示向量集与图像特征表示向量融合。9.根据权利要求8所述的文本数据传输的隐私信息保护方法,其特征在于:数据预处理模块(1)包含隐私文本替换模块(101)和隐私文本抽取模块(102),隐私文本替换模块(101),用于将隐私文本替换为非隐私文本,并保留隐私文本的位置信息;隐私文本抽取模块(102),用于得到所有的隐私文本数据;由文图转换模块(2),将文档中的隐私文本转换为隐私图的形式;隐私图包含字符图与标签图,字符图以首尾映射、前向映射以及反向映射三种规则进行映射;首尾映射在R通道将词的首尾两个字符以字符映射图为基准进行映射...

【专利技术属性】
技术研发人员:奚雪峰徐家保陈杰左严崔志明
申请(专利权)人:江苏新希望科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1