一种自适应数据脱敏方法技术

技术编号:38157896 阅读:11 留言:0更新日期:2023-07-13 09:27
本发明专利技术公开了一种自适应数据脱敏方法,包括如下步骤:步骤一,数据抽取利用Sqoop技术从常用数据库、时序数据库、以及文件或FTP接口进行抽取,数据抽取过程保证原始数据的完整性,以及数据之间的逻辑关系完整;步骤二,数据脱敏通过数据脱敏算法库中的脱敏算法实现对敏感数据的转换,在脱敏过程中保持数据的关联性和完整性,确保数据在同一系统中的一致性;步骤三,数据分发数据脱敏后,通过数据库、文件、FTP接口进行分发。本发明专利技术以应用需求为导向,以脱敏策略驱动脱敏规则动态生成的方法,使脱敏结果有据可依且具有可重复性。使用成本低,并且便于算法和应用的扩展。且便于算法和应用的扩展。且便于算法和应用的扩展。

【技术实现步骤摘要】
一种自适应数据脱敏方法


[0001]本专利技术属计算机
,涉及一种自适应数据脱敏方法。

技术介绍

[0002]随着以数据聚合与治理为特征的数据中台的普及,数据的安全防护越来越受到重视,数据脱敏技术被广泛使用。为了解决常规数据脱敏方法存在的使用门槛高、定制化程度高和稳定性不足的问题,以脱敏强度和脱敏算法权限为要素建立脱敏策略配置体系。采用重识别风险评估和信息安全属性评价的方法对配置项进行分级、量化,提出一种自适应脱敏策略配置方法。不仅简化了配置过程,还能灵活稳定地为应用需求提供可靠的脱敏数据,有利于智能化自动化数据脱敏系统的开发。

技术实现思路

[0003]针对现有技术上存在的不足,本专利技术的目的是提供一种自适应数据脱敏方法,以克服现有同类产品生产中存在的不足,满足实际使用的需要。
[0004]为了达到上述目的,本专利技术提供如下技术方案:
[0005]一种自适应数据脱敏方法,包括如下步骤:
[0006]步骤一、数据抽取
[0007]利用Sqoop技术从常用数据库,时序数据库,以及文件、FTP接口进行抽取,数据抽取过程保证原始数据的完整性,以及数据之间的逻辑关系完整;
[0008]步骤二、数据脱敏
[0009]通过数据脱敏算法库中的脱敏算法实现对敏感数据的转换,在脱敏过程中保持数据的关联性和完整性,确保数据在同一系统中的一致性;
[0010]步骤三、数据分发
[0011]数据脱敏后,通过数据库、文件、FTP接口进行分发。
[0012]对敏感数据分段(即分析每种类型数据的结构特征,将一个数据分解为几个字段)完后,利用卷积神经网络对敏感数据进行关联性(因为同一个数据中各字段可能具有关联关系,由数据结构特征决定)分析,首先建立卷积神经网络模型,模型主要由输入层、卷积层和输出层三部分组成,将各个字段数据信息输入卷积神经网络模型中的输入层,对字段数据信息进行训练和学习。
[0013]按照脱敏规则(系统针对各类敏感数据预定义的脱敏规则)对敏感数据进行自动脱敏,数据脱敏完成后利用软件计算自动脱敏数据量。
[0014]根据脱敏规则对敏感数据中相应字段进行脱敏处理,根据常用的七种敏感数据分别设计了相应的脱敏规则。
[0015]根据敏感数据的特殊性,敏感数据通常会应用在网络系统、网页、网站中,为防止网络数据在网络中任意一个环节泄露,要保持数据信息在网络中脱敏的一致性。
[0016]假设分段处理后的数据为卷积神经网络模型训练集,获取敏感数据字段中每个字
段代表的信息类型,用正则表达式等公式表示。
[0017]卷积神经网络模型计算出敏感信息字段之间的关联性值,如果计算的关联性值大于1,则表示敏感数据字段之间存在很强的关联性,需要对敏感信息字段对应的标签子段进行脱敏处理;如果计算的关联性值小1,则表示敏感数据字段之间并不存在很强的关联性,无需对敏感信息字段对应的标签子段进行脱敏处理。
[0018]本专利技术对脱敏规则进行解析,根据重识别风险评估理论和信息安全属性,定义了脱敏强度(即脱敏位置对脱敏结果的影响)和脱敏算法权重(即脱敏算法对脱敏结果的影响),从保密性和可用性两方面对脱敏结果做量化评估,提出了一种由应用需求为导向,以脱敏策略驱动脱敏规则动态生成的方法,使脱敏结果有据可依且具有可重复性。使用成本低,并且便于算法和应用的扩展。
附图说明
[0019]图1为本专利技术数据脱敏框架图;
[0020]图2为本专利技术自适应脱敏策略模型图。
具体实施方式
[0021]下面将结合本专利技术的附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0022]如图1—2所示,一种自适应数据脱敏方法,包括如下步骤:
[0023]步骤一、数据抽取
[0024]利用Sqoop技术从常用数据库,时序数据库,以及文件、FTP接口进行抽取,数据抽取过程保证原始数据的完整性,以及数据之间的逻辑关系完整;
[0025]步骤二、数据脱敏
[0026]通过数据脱敏算法库中的脱敏算法实现对敏感数据的转换,在脱敏过程中保持数据的关联性和完整性,确保数据在同一系统中的一致性;
[0027]步骤三、数据分发
[0028]数据脱敏后,通过数据库、文件、FTP接口进行分发。
[0029]对敏感数据分段完后,利用卷积神经网络对敏感数据进行关联性分析,首先建立卷积神经网络模型,模型主要由输入层、卷积层和输出层三部分组成,将各个字段数据信息输入卷积神经网络模型中的输入层,对字段数据信息进行训练和学习。
[0030]按照脱敏规则对敏感数据进行自动脱敏,数据脱敏完成后利用软件计算自动脱敏数据量。
[0031]根据脱敏规则对敏感数据中相应字段进行脱敏处理,根据敏感数据的七个字段分别设计了相应的脱敏规则。
[0032]根据敏感数据的特殊性,敏感数据通常会应用在网络系统、网页、网站中,为防止网络数据在网络中任意一个环节泄露,要保持数据信息在网络中脱敏的一致性。
[0033]假设分段处理后的数据为卷积神经网络模型训练集,获取敏感数据字段中每个子
段代表的信息类型,用公式表示。
[0034]计算出敏感信息字段之间的关联性值,如果计算的关联性值大于1,则表示敏感数据字段之间存在很强的关联性,需要对敏感信息字段对应的标签子段进行脱敏处理;如果计算的关联性值小1,则表示敏感数据字段之间并不存在很强的关联性,无需对敏感信息字段对应的标签子段进行脱敏处理。
[0035]本专利技术从脱敏结果出发,对脱敏过程中影响脱敏结果的因素做出分析,以脱敏强度和脱敏算法权重建立脱敏策略配置模型。脱敏策略与应用需求关联紧密,所以脱敏策略具有可配置性,才能不受既定脱敏规则的约束,随时通过扩展算法库来高效地为应用需求服务。数据中台以数据开发驱动业务开发为目的,它提供的数据服务会不断产生多样化的脱敏需求。基于自适应策略的数据脱敏是一种非常适合数据中台使用的方法。
[0036]以上所述,仅为本专利技术的具体实施方式,但本专利技术的保护范围并不局限于此,任何熟悉本
的技术人员在本专利技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本专利技术的保护范围之内。因此,本专利技术的保护范围应所述以权利要求的保护范围为准。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自适应数据脱敏方法,其特征在于,包括如下步骤:步骤一、数据抽取利用Sqoop技术从常用数据库,时序数据库,以及文件、FTP接口进行抽取,数据抽取过程保证原始数据的完整性,以及数据之间的逻辑关系完整;步骤二、数据脱敏通过数据脱敏算法库中的脱敏算法实现对敏感数据的转换,在脱敏过程中保持数据的关联性和完整性,确保数据在同一系统中的一致性;步骤三、数据分发数据脱敏后,通过数据库、文件、FTP接口进行分发。2.根据权利要求1所述的自适应数据脱敏方法,其特征在于:对敏感数据分段完后,利用卷积神经网络对敏感数据进行关联性分析,首先建立卷积神经网络模型,模型由输入层、卷积层和输出层三部分组成,将各个字段数据信息输入卷积神经网络模型中的输入层...

【专利技术属性】
技术研发人员:刘友春吴鹏周昊程朱兆生徐思李禹梁
申请(专利权)人:江苏电力信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1