【技术实现步骤摘要】
文本数据传输的隐私信息保护系统及其方法
[0001]本专利技术涉及一种文本数据传输的隐私信息保护系统及方法。
技术介绍
[0002]目前,基于大数据训练的深度学习在自然语言处理中的应用逐渐增多,特别是在医疗健康等与民生相关的领域。由大量数据训练后获得的不同用途的模型使使用者能够快速而准确地获得信息;然而,在模型地训练与使用过程中通常包含了许多隐私文本,如含有个人健康信息(Personal Health Information,PHI)的电子健康记录(Electronic Health Record,EHR)。各场景中的模型通常分为数据表征提取部分与下游任务部分,特征提取部分需要将数据中的各种信息进行提取与编码并根据下游任务进一步获得与下游任务相关的数据特征,由特征提取之后的数据特征表示向量是下游任务能够正常运行的前提。但在获得数据特征表示的同时,数据中的隐私数据将暴露于巨大的风险中,不法分子可以通过特殊方式窃取隐私数据,并通过逆向编码等方式获取数据的原始形式。2020年中,全世界发生了多起医疗数据泄露事件,其中患者和医护人员的私人信息被泄露并严重影响了相关人员及其家人的生理以及心理健康,在社会上造成了不良的影响。一旦在发生大规模的隐私泄露,应用于不同场景下的模型将失去使用价值与信任,社会安全也将收到危害。各国出台了各项法律法规以保障信息安全,如我国制定了《中华人民共和国网络安全法》。
[0003]许多研究人员已经对如何确保文本数据中的隐私信息的安全展开了大量研究,匿名化与去识别是当前隐私保护的主要措施,匿名化 ...
【技术保护点】
【技术特征摘要】
1.文本数据传输的隐私信息保护系统,其特征在于:包含数据预处理模块(1)、文图转换模块(2)、文本编码模块(3)、图像编码模块(4)以及编码混合模块(5);所述数据预处理模块(1),将占文本总比例少的隐私文本抽出替换;所述文图转换模块(2),将隐私文本转为抽象隐私图;所述文本编码模块(3),将文本转化为可理解的数据类型和计算单元;所述图像编码模块(4),将图像转换为可理解的数据类型和计算单元;所述编码混合模块(5),根据位置信息将文本编码与图像编码融合得到能用于下游任务的隐私保护混合特征表示向量。2.根据权利要求1所述的文本数据传输的隐私信息保护系统,其特征在于:所述数据预处理模块(1)包含隐私文本替换模块(101)和隐私文本抽取模块(102),所述隐私文本替换模块(101),用于将文本中的隐私文本替换为非隐私文本,并保留隐私文本的位置信息;所述隐私文本抽取模块(102),用于得到所有文本中的隐私文本数据。3.根据权利要求1所述的文本数据传输的隐私信息保护系统,其特征在于:所述文图转换模块(2),将数据预处理模块(1)中抽取的隐私文本进行由文本到抽象文本的转换。4.根据权利要求1所述的文本数据传输的隐私信息保护系统,其特征在于:所述文本编码模块(3),将数据预处理模块(1)处理后的非隐私文本数据采用Bi
‑
LSTM编码,提供单词边界信息;将前向和后向嵌入连接起来作为字符级单词向量表示;用相同的编码网络得到词级向量表示;将字符级单词向量序列与词级向量序列相结合,生成综合的文本特征表示向量集。5.根据权利要求1所述的文本数据传输的隐私信息保护系统,其特征在于:所述图像编码模块(4),将文图转换模块(2)得到的隐私图采用CNN编码,并在编码的过程中利用DP
‑
SGD优化对数据保护,同时对图像进行特征提取形成图像的向量表示。6.根据权利要求1所述的文本数据传输的隐私信息保护系统,其特征在于:所述编码混合模块(5),将文本编码模块(3)与图像编码模块(4)得到的两类编码向量根据隐私文本替换模块(101)保存的位置信息进行融合插入。7.权利要求1所述的系统实现文本数据传输的隐私信息保护方法,其特征在于:包括以下步骤:首先,对文本进行数据预处理;然后,数据预处理之后的图像数据进行CNN编码,并在训练过程中利用DP
‑
SGD算法进行优化,形成具有隐私保护性能的图像特征表示;将文本数据进行Bi
‑
LSTM编码,并将字符级向量序列与词典相结合,形成综合的文本表示向量集;继而,将数据预处理之后的文本数据进行Bi
‑
LSTM编码,并将生成的字符级向量序列与词典相结合,得到综合的文本特征表示向量集;将文图转换后的隐私图像进行CNN(DP
‑
SGD)编码,得到具有隐私性的图像表示向量;之后,将文本特征表示向量集与图像特征表示向量按照数据预处理时保存的位置信息,将图像表示向量插入文本特征表示向量集中进行替换融合;最后,输出混合特征表示向量集,作为最终输出,该输出能作为可实际使用且具有隐私保护的数据特征表示向量集。8.根据权利要求7所述的文本数据传输的隐私信息保护方法,其特征在于:由数据预处
理模块(1),对文本文档进行文本分离替换;由文图转换模块(2),将隐私文本转换为抽象隐私图;由文本编码模块(3),对文本序列采用BiLSTM编码;由图像编码模块(4),对图像序列采用以DP
‑
SGD进行优化的CNN编码;由编码混合模块(5),将文本特征表示向量集与图像特征表示向量融合。9.根据权利要求8所述的文本数据传输的隐私信息保护方法,其特征在于:数据预处理模块(1)包含隐私文本替换模块(101)和隐私文本抽取模块(102),隐私文本替换模块(101),用于将隐私文本替换为非隐私文本,并保留隐私文本的位置信息;隐私文本抽取模块(102),用于得到所有的隐私文本数据;由文图转换模块(2),将文档中的隐私文本转换为隐私图的形式;隐私图包含字符图与标签图,字符图以首尾映射、前向映射以及反向映射三种规则进行映射;首尾映射在R通道将词的首尾两个字符以字符映射图为基准进行映射...
【专利技术属性】
技术研发人员:奚雪峰,徐家保,陈杰,左严,崔志明,
申请(专利权)人:江苏新希望科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。