一种基于互补映射的数据库汉语姓名脱敏方法技术

技术编号:13457819 阅读:103 留言:0更新日期:2016-08-03 16:12
本发明专利技术提出了一种基于互补映射的数据库汉语姓名脱敏的新方法。一般的数据库处理汉语姓名的方法是直接去除姓名项或者乱码代替,这样带来数据库的严重信息损失。本方法的特点有效保障了数据唯一性和可标识别性,使得数据库在处理过程中无信息损失。首先通过对数据库中的汉语姓名分解成单个汉字,然后将汉字编码得到编码数据,之后采用两步初等变换方法将编码次序置乱,最后使用互补映射得到脱敏码,组合得到汉语姓名的全部脱敏结果。大量的数据库实验证明,这种方法十分有效,并且能够达到数据库无损脱敏的技术要求。

【技术实现步骤摘要】


本专利技术主要用于数据库隐私保护,具体表现为一种涉及汉字编码、数据置乱和互补映射等概念的数据库汉语姓名转换方法。

技术介绍

姓名脱敏方法是隐私保护方法研究的重要问题。在这个信息爆炸的时代,隐私保护成了大数据应用的技术壁垒,如何保护数据库中的隐私信息是亟待攻克的技术难题。隐私是指不愿为他人所知悉的个人信息。包括个人的内在思想、外在生活方式、身体状况、家庭关系和背景、生活环境与空间等与公共利益无关的个人事务和情况。2013年4月1日,国家工业和信息化部编制的《信息安全技术、公共及商用服务信息系统个人信息保护指南》正式实施。指南明确将个人信息分为个人一般信息和个人敏感信息;同时要求,处理个人信息应当具有特定的、明确的和合理的目的,应当在个人信息主体知情的情况下获得个人信息主体的同意。对于个人一般信息的处理可以建立在默许同意的基础上,只要个人信息主体没有明确表示反对,便可收集和利用;但对于个人敏感信息,则需要建立在明示同意的基础上,在收集和利用之前,必须首先获得个人信息主体明确的授权。在这些个人敏感信息中,姓名是一个重要且备受用户或者公众关注的信息。从中华上下五千年历史的角度来看,姓名是文化脉承的重要方式之一,是以血脉传承为根基的社会人文标识,是人们在社会关系中必不可少的符号,是个人在社会人文交流中必须的用于信息表达、交流及传播的工具。在大数据领域,涉及的个人敏感信息常在百万条以上,多则数千万甚至几亿条,要征得这些个体的同意,然后再进行统计和使用,是不能的事情。因此姓名脱敏成了数据库隐私保护的重要的技术问题。
姓名汉字编码是姓名脱敏的重要技术。当前汉字编码方法非常多,比如区位码、内码、外码以及ASCII码等等。本专利选择1981年国家标准局公布的《信息交换用汉字编码字符集基本集》(简称汉字标准交换码)。该套汉字标准交换码共分两级,一级3755个字,二级3008个字,共6763个汉字。这种汉字标准交换码是计算机的内部码,可以为各种输入输出设备的设计提供统一的标准,使各种系统之间的信息交换有共同一致性,从而使信息资源的共享得以保证。就大数据中的姓名信息脱敏而言,脱敏的效率是必须考虑的重要因素,因此不宜采用过于复杂的编码技术。与那些复杂的编码技术不同,汉字标准交换码的主要优点就在于使用起来简单高效。
数据置乱是姓名信息脱敏的必不可少的步骤。数据置乱是信息脱敏的一项常用技术,其目的是将数据置换成阅读者难以识别其原有分布规律的数据,同时保持数据的大小、规模不发生改变。
补码映射是姓名信息脱敏的保障技术。补码思想基于互补守恒原理,两个量互补是指它们之和总是一个常数。本专利中每个汉字对应四位区位码,因此我们指定原码和补码之和为定常数9999。

技术实现思路

本专利技术的目的在于提出一种基于互补映射的数据库汉语姓名脱敏方法,以减少数据库中汉语姓名的信息存在为目的,以保障数据真实性为原则。同时,本专利技术要求脱敏方法是可逆的,即要能从脱敏库还原原始数据库。本专利专利技术的方法,整个脱敏过程完全由计算机自动完成的,用户只需要输入原始数据库,就可让计算机自动对数据库汉语姓名进行脱敏,最终得到脱敏后的数据库。
本专利技术的技术方案如下:
步骤1,对汉语姓名的汉字分解,根据字节分割姓名,N={x1,x2,x3,…,xk本文档来自技高网
...

【技术保护点】
一种基于互补映射的数据库汉语姓名脱敏方法,其特征在于:对数据库汉语姓名脱敏时,要求保护如下方法步骤,其步骤具体如下:步骤1,对汉语姓名的汉字分解,根据字节分割姓名,N={x1,x2,x3,...,xk);步骤2,对汉字进行编码,本专利采用国家标准汉字码,ui=c(xi),i=1,2,...,k.实例如:胆:2108;弹:2115;蛋:2116;步骤3,对每个汉字对应码采用初等变换矩阵分两步置乱vi=l(ui),i=1,2,...,k;步骤4,将置乱后的汉字编码用互补映射得到补码,互补映射为:Ei=F(vi)=9999‑vi,i=1,2,...,k,例如:F(8021)=9999‑8021=1978;步骤5,将补码组合生成脱敏姓名数据E=E1E2...Ek。

【技术特征摘要】
1.一种基于互补映射的数据库汉语姓名脱敏方法,其特征在于:
对数据库汉语姓名脱敏时,要求保护如下方法步骤,其步骤具体如下:
步骤1,对汉语姓名的汉字分解,根据字节分割姓名,N={x1,x2,x3,...,xk);
步骤2,对汉字进行编码,本专利采用国家标准汉字码,ui=c(xi),i=1,2,...,k.实例如:
胆:2108;弹:2115;蛋:2116;
步骤3,对每个汉字对应码采用初等变换矩阵分两步置乱vi=l(ui),i=1,2,...,k;
步骤4,将置乱后的汉字编码用互补映射得到补码,互补映射为:
Ei=F(vi)=9999-vi,i=1,2,...,k,例如:F(8021)=9999-8021=...

【专利技术属性】
技术研发人员:罗建峰袁玉波
申请(专利权)人:上海健晴信息技术有限公司
类型:发明
国别省市:上海;31

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1