本发明专利技术提供了一种基于深度学习的日志脱敏方法及系统,包括以下步骤:对日志数据进行预处理:将日志数据进行格式化处理;对日志数据进行特征提取,得到表示该日志数据的向量;对步骤S2得到的向量进行脱敏处理;对步骤S3得到的脱敏后的向量进行反向转换,转换回原始的日志数据格式。本发明专利技术有益效果:基于深度学习模型的特征提取方法可以充分利用日志数据的多样性和复杂性,提高了脱敏效果和可靠性。自适应学习和更新的特征提取模型可以适应不同的日志数据,具有更好的通用性和扩展性。具有更好的通用性和扩展性。具有更好的通用性和扩展性。
【技术实现步骤摘要】
基于深度学习的日志脱敏方法及系统
[0001]本专利技术属于数据安全与隐私保护领域,尤其是涉及一种基于深度学习的日志脱敏方法及系统。
技术介绍
[0002]在任何行业系统中,日志数据都是非常重要的资源,它记录了各种系统和应用的运行情况,是进行故障排查和性能优化的重要依据。但是,由于日志中可能包含敏感信息(如IP地址、用户名、密码、电话号码、身份证号码等),一旦泄露,就会对个人隐私造成不可估量的损失,甚至会导致企业的声誉受损。
[0003]因此,对日志进行脱敏处理已经成为了必要的安全措施。传统的脱敏方法包括基于规则的方法、基于统计的方法和基于加密的方法等,但是这些方法都存在一定的局限性,不能很好地应对日志数据的多样性和复杂性。
技术实现思路
[0004]有鉴于此,本专利技术旨在提出一种基于深度学习的日志脱敏方法及系统,以解决现有技术中存在的至少一个问题。
[0005]为达到上述目的,本专利技术的技术方案是这样实现的:
[0006]一种基于深度学习的日志脱敏方法,包括以下步骤:
[0007]S1、对日志数据进行预处理:将日志数据进行格式化处理;
[0008]S2、对日志数据进行特征提取,得到表示该日志数据的向量;
[0009]S3、对步骤S2得到的向量进行脱敏处理,使得敏感信息被模糊化,不影响日志数据的可用性;
[0010]S4、对步骤S3得到的脱敏后的向量进行反向转换,转换回原始的日志数据格式。
[0011]进一步的,在步骤S1中,对日志数据进行预处理:将日志数据进行格式化处理,包括以下内容:
[0012]去除多余空格和换行符,去除重复信息,去除系统环境变量和配置信息,将日志数据按照字段进行拆分;
[0013]所述日志数据的字段包括时间戳、事件类型、IP地址、端口号、用户名、密码、文件名;
[0014]预处理时还需要替换敏感字段。
[0015]进一步的,在步骤S2中,对日志数据进行特征提取,得到表示该日志数据的向量,包括以下内容:
[0016]采用卷积神经网络、长短时记忆网络,通过深度学习模型,使步骤S1的日志数据得到日志数据向量。
[0017]进一步的,在步骤S3中,对步骤S2得到的向量进行脱敏处理,使得敏感信息被模糊化,不影响日志数据的可用性,包括以下内容:
[0018]脱敏处理分为加噪处理、数据转换、删减处理、聚合处理,采用多种脱敏处理方法组合,对步骤S2得到的向量进行脱敏处理。
[0019]进一步的,在步骤S4中,对步骤S3得到的脱敏后的向量进行反向转换,转换回原始的日志数据格式,包括以下内容:
[0020]采用数据转换和反向生成方法,恢复原始日志数据格式,将脱敏后的向量转换回原始的日志数据格式。
[0021]一种基于深度学习的日志脱敏系统,包括数据采集模块、数据预处理模块、特征提取模块、脱敏模块和反向转换模块,所述数据采集模块、数据预处理模块、特征提取模块、脱敏模块和反向转换模块之间依次信号连接;
[0022]所述数据采集模块用于采集日志数据;
[0023]所述数据预处理模块用于对日志数据进行预处理:将日志数据进行格式化处理;
[0024]所述特征提取模块用于对日志数据进行特征提取,得到表示该日志数据的向量;
[0025]所述脱敏模块用于对步骤S2得到的向量进行脱敏处理,使得敏感信息被模糊化,不影响日志数据的可用性;
[0026]所述反向转换模块用于对步骤S3得到的脱敏后的向量进行反向转换,转换回原始的日志数据格式。
[0027]进一步的,所述特征提取模块采用深度学习模型对日志数据进行特征提取。
[0028]相对于现有技术,本专利技术所述的基于深度学习的日志脱敏方法及系统具有以下优势:
[0029](1)本专利技术所述的基于深度学习的日志脱敏方法及系统,基于深度学习模型的特征提取方法可以充分利用日志数据的多样性和复杂性,提高了脱敏效果和可靠性。自适应学习和更新的特征提取模型可以适应不同的日志数据,具有更好的通用性和扩展性。
[0030](2)本专利技术所述的基于深度学习的日志脱敏方法及系统,脱敏后的日志数据能够保护个人隐私和企业信息安全,防止敏感信息泄露,符合数据保护的法律法规。系统实现简单,可以快速部署和运行,对日志数据的处理速度快,不会影响应用系统的性能。
附图说明
[0031]构成本专利技术的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0032]图1为本专利技术实施例所述的整体方法流程示意图。
具体实施方式
[0033]需要说明的是,在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。
[0034]在本专利技术的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相
对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本专利技术的描述中,除非另有说明,“多个”的含义是两个或两个以上。
[0035]在本专利技术的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本专利技术中的具体含义。
[0036]下面将参考附图并结合实施例来详细说明本专利技术。
[0037]如图1所示,基于深度学习的日志脱敏方法及系统,该方法包括以下步骤:
[0038]步骤一:
[0039]对日志数据进行预处理:需要将日志数据进行格式化处理。
[0040]去除多余空格和换行符,去除重复信息,去除系统环境变量和配置信息,将日志数据按照字段进行拆分,以便于后续的数据处理和隐私保护。通常情况下,日志数据的字段包括时间戳、事件类型、IP地址、端口号、用户名、密码、文件名等,预处理时还需要替换敏感字段,比如将用户名和密码替换为"****",将IP地址和端口号替换为"0.0.0.0:0"等。
[0041]步骤二:
[0042]采用深度学习模型对日志数据进行特征提取,得到表示该日志数据的向量。
[0043]可以采用卷积神经网络(CNN)、长短时记忆网络(LSTM)等,通过深度学习模型,使步骤一的日本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.基于深度学习的日志脱敏方法,其特征在于:包括以下步骤:S1、对日志数据进行预处理:将日志数据进行格式化处理;S2、对日志数据进行特征提取,得到表示该日志数据的向量;S3、对步骤S2得到的向量进行脱敏处理,使得敏感信息被模糊化,不影响日志数据的可用性;S4、对步骤S3得到的脱敏后的向量进行反向转换,转换回原始的日志数据格式。2.根据权利要求1所述的基于深度学习的日志脱敏方法,其特征在于:在步骤S1中,对日志数据进行预处理:将日志数据进行格式化处理,包括以下内容:去除多余空格和换行符,去除重复信息,去除系统环境变量和配置信息,将日志数据按照字段进行拆分;预处理时还需要替换敏感字段。3.根据权利要求1所述的基于深度学习的日志脱敏方法,其特征在于:所述日志数据的字段包括时间戳、事件类型、IP地址、端口号、用户名、密码、文件名。4.根据权利要求3所述的基于深度学习的日志脱敏方法,其特征在于:在步骤S2中,对日志数据进行特征提取,得到表示该日志数据的向量,包括以下内容:采用卷积神经网络、长短时记忆网络,通过深度学习模型,使步骤S1的日志数据得到日志数据向量。5.根据权利要求3所述的基于深度学习的日志脱敏方法,其特征在于:在步骤S3中,对步骤S2得到的向量进行脱敏处理,使得敏感信息被模糊化,不影响日志数据的可用性,包括以下内容:脱敏...
【专利技术属性】
技术研发人员:何颖,
申请(专利权)人:紫光云技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。