一种数据库敏感数据自动识别方法技术

技术编号:11755076 阅读:168 留言:0更新日期:2015-07-22 03:19
本发明专利技术公开了一种数据库敏感数据自动识别方法,包括如下步骤:a)配置数据源,并为数据源中库表的敏感字段设置识别匹配算法;b)获取已配置的数据源和识别匹配算法,在后台启动多个线程,采用JDBC方式与指定的数据库建立长连接,一个线程处理一个用户下的所有表或处理一张表;c)对每一张库表采取抽样的方式随机抽取指定的数据,将抽取出来的数据按设置的识别匹配算法进行检验;d)检验通过则标记为敏感数据,并自动保存记录。本发明专利技术通过对数据库敏感数据进行自动识别,能够解决敏感数据人工梳理困难,内容定位不准确问题,降低人工梳理耗时,降低人工成本,提高梳理准确性,提高维护工作效率。

【技术实现步骤摘要】

本专利技术涉及一种数据库处理方法,尤其涉及。
技术介绍
随着移动业务支撑系统数据应用越来越广泛,个人信息安全保障已越来越被公司重视。如何规避日常生产运行所涉及的大量敏感信息,成为信息安全首要考虑问题,而承载核心业务系统的生产数据库更是重中之重。在日常信息化建设中,不可避免的需要从生产库迀移至测试库的大量业务测试数据,如何满足信息化建设基础上,最大限度地保护敏感信息,是当前面临的重要挑战。现阶段,基于运行环境安全管控已有诸多规范,并拥有完善的安全加固方案。而生产数据同步到测试库、开发库、报表库等用于开发、测试、报表查询过程中,如敏感信息没有及时屏蔽,则存在敏感数据泄露风险。现有通常做法是通过业务人员对数据库结构和数据进行手工梳理,得出敏感数据清单,如对业务和数据库结构不了解,会造成内容定位不准确问题,并且需要专家级别的业务人员才能操作,梳理难度大,成本非常高,维护效率极低。现有技术的缺点如下:1)数据库梳理敏感数据内容定位不准确。2)数据库梳理敏感数据梳理难度大。3)数据库梳理敏感数据人工成本非常高。4)数据库梳理敏感数据维护效率低。
技术实现思路
本专利技术所要解决的技术问题是提供,能够解决敏感数据人工梳理困难,内容定位不准确问题,降低人工梳理耗时,降低人工成本,提高梳理准确性,提高维护工作效率。本专利技术为解决上述技术问题而采用的技术方案是提供,包括如下步骤:a)配置数据源,并为数据源中库表的敏感字段设置识别匹配算法;b)获取已配置的数据源和识别匹配算法,在后台启动多个线程,采用JDBC方式与指定的数据库建立长连接,一个线程处理一个用户下的所有表或处理一张表;c)对每一张库表采取抽样的方式随机抽取指定的数据,将抽取出来的数据按设置的识别匹配算法进行检验;d)检验通过则标记为敏感数据,并自动保存记录。上述的数据库敏感数据自动识别方法,其中,所述步骤a)通过数据库实例配置界面将数据库主机IP、端口、数据库实例名、数据库帐号、数据库密码信息保存起来作为数据源。上述的数据库敏感数据自动识别方法,其中,所述步骤a)中敏感字段包括姓名、单位通讯地址、单位名称、证件有效时间、身份证号、联系人、证件地址、联系方式、实际居住地址、实际居住邮编。上述的数据库敏感数据自动识别方法,其中,所述步骤b)中的多个线程包括一个主线程和多个子线程,每个子线程对一个用户或一张表进行扫描处理,所有子线程运作状态及时报告给主线程,每个子线程与主线程定时保持心跳联系,并将运行状态和进度一起作为心跳信息发送给主线程,所述主线程将所有子线程操作作为一个事务处理,并等待所有子线程都执行成功并返回扫描结果后,按检验次数、达标率、所用时长、过程状态进行多维度统计后输出报告并保存到数据库,以作前端查询使用。上述的数据库敏感数据自动识别方法,其中,所述步骤c)中随机抽取的数据在全部数据内容内均匀分布。上述的数据库敏感数据自动识别方法,其中,所述步骤c)中对姓名字段的识别匹配过程如下:cl)预存百家姓复姓表和单姓表,判断文本总长是否在2至4位之内,若不是则退出;c2)利用正则表达式判断文本是否只包含汉字,若不是则退出;c3)从文本中读取前两个字,从复姓表中匹配其是否为复姓,若不是则取文本前一字,从单姓表匹配其是否为单姓,若不是则退出,若是则判断该字段为姓名类型敏感字段。上述的数据库敏感数据自动识别方法,其中,所述步骤c)中设置有循环检验次数、重复筛选次数、一次通过达标率和基准达标率,如果第一次随机抽取数据的检验结果高于一次通过达标率则直接检验通过,否则先按照循环检验次数进行重复检验,再按照重复筛选次数继续随机抽取数据进行后续检验,如果所有检验结果均高于基准达标率则通过。本专利技术对比现有技术有如下的有益效果:本专利技术提供的数据库敏感数据自动识别方法,通过对数据库敏感数据进行自动识别,解决敏感数据人工梳理困难,内容定位不准确问题,降低人工梳理耗时,降低人工成本,提高梳理准确性,提高维护工作效率;可以有效解决敏感数据泄漏问题,保障清单数据安全,确保非法进入系统盗取数据者即使拿到用户基础资料信息也无使用价值,提高维护人员工作效率,提升业务支撑能力。【附图说明】图1为本专利技术数据库敏感数据自动识别流程示意图。【具体实施方式】下面结合附图和实施例对本专利技术作进一步的描述。图1为本专利技术数据库敏感数据自动识别流程示意图。请参见图1,本专利技术提供的数据库敏感数据自动识别方法,包括如下步骤:步骤S1:配置数据源,并为数据源中库表的敏感字段设置识别匹配算法;如通过数据库实例配置界面将数据库主机IP、端口、数据库实例名、数据库帐号、数据库密码信息保存起来作为数据源;所述敏感字段包括姓名、单位通讯地址、单位名称、证件有效时间、身份证号、联系人、证件地址、联系方式、实际居住地址、实际居住邮编;步骤S2:获取已配置的数据源和识别匹配算法,在后台启动多个线程,采用JDBC方式与指定的数据库建立长连接,一个线程处理一个用户下的所有表或处理一张表;步骤S3:对每一张库表采取抽样的方式随机抽取指定的数据,将抽取出来的数据按设置的识别匹配算法进行检验;步骤S4:检验通过则标记为敏感数据,并自动保存记录。本专利技术提供的数据库敏感数据自动识别方法,通过数据库实例配置界面将数据库主机IP、端口、数据库实例名、数据库帐号、数据库密码等信息保存起来作为数据源。再通过敏感策略配置敏感数据描述规则,程序根据库表字段中不同特性敏感数据智能选取合适的匹配算法。基础配置完成后,采用一键式启动,程序自动获取已配置的数据源和敏感策略,在后台启动多个线程,采用JDBC方式与指定的数据库建立长连接,一个线程处理一个用户下的所有表或处理一张表,因为每张表的数据量非常大,可能达到千万甚至上亿,所以对每一张库表采取抽样的方式随机抽取指定的数据,可根据库表总数量大小智能抽取适当数量,可以自定义随机抽数百条或数十万条(每50、500、5000……等抽一条),保证随机抽取的数据可在全部数据内容内均匀分布,将抽取出来的数据按智能选取的匹配策略进行检验,检验其间可自定义设置或循环检验次数、重复筛选次数、达标率,例如重复3次检验并且达标率为95%,则三次检验都必须超过95%才能通过。此外,本专利技术可设当前第1页1 2 本文档来自技高网...

【技术保护点】
一种数据库敏感数据自动识别方法,其特征在于,包括如下步骤:a)配置数据源,并为数据源中库表的敏感字段设置识别匹配算法;b)获取已配置的数据源和识别匹配算法,在后台启动多个线程,采用JDBC方式与指定的数据库建立长连接,一个线程处理一个用户下的所有表或处理一张表;c)对每一张库表采取抽样的方式随机抽取指定的数据,将抽取出来的数据按设置的识别匹配算法进行检验;d)检验通过则标记为敏感数据,并自动保存记录。

【技术特征摘要】

【专利技术属性】
技术研发人员:程永新胡永郭振宇
申请(专利权)人:上海新炬网络信息技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1