敏感信息检测方法、装置和相关设备制造方法及图纸

技术编号:38378898 阅读:16 留言:0更新日期:2023-08-05 17:38
本发明专利技术涉及数据安全技术领域,具体公开一种敏感信息检测方法、装置和相关设备,该方法包括:首先获取待检测文件;然后从待检测文件中提取字符串,得到候选敏感字符集;再基于预设正则表达式,对候选敏感字符集中的字符串进行匹配检测,将与预设正则表达式匹配的字符串确定为目标字符串;其中,预设正则表达式包括基于敏感信息的特征信息生成的正则表达式;或,计算候选敏感字符集中字符串的熵值,并将熵值大于预设阈值的字符串确定为目标字符串;将目标字符串确定为包含敏感信息的字符串。如此,可以检测已有文件中是否存在敏感信息,从而供相关工作人员及时对文件进行修改,避免泄露密码,保证数据安全。保证数据安全。保证数据安全。

【技术实现步骤摘要】
敏感信息检测方法、装置和相关设备


[0001]本专利技术涉及数据安全
,具体涉及一种敏感信息检测方法、装置和相关设备。

技术介绍

[0002]在企业代码开发的持续集成和持续部署过程中,经常出现敏感信息的使用,例如包括即将一些密码等以明文的方式写在程序中进行部署。虽然,该方法使编程效率有一定程度上的提高,但是在受到攻击时,容易出现泄露敏感信息的问题,引发数据安全事故。
[0003]目前,只能在代码文件撰写过程中,提醒工作人员不要将敏感信息直接撰写到代码文件中,无法进行有效的监督和检测,无法保证数据安全,因此,亟需一种能够检测敏感信息的方法,以提高数据安全。

技术实现思路

[0004]有鉴于此,本专利技术的目的在于提供一种敏感信息检测方法、装置和相关设备,以克服目前无法检测敏感信息,数据安全无法保证的技术问题。
[0005]为实现以上目的,本专利技术采用如下技术方案:
[0006]一方面,一种敏感信息检测方法,包括:
[0007]获取待检测文件;
[0008]从所述待检测文件中提取字符串,得到候选敏感字符集;
[0009]基于预设正则表达式,对所述候选敏感字符集中的字符串进行匹配检测,并将与所述预设正则表达式匹配的字符串确定为目标字符串;其中,所述预设正则表达式包括基于敏感信息的特征信息生成的正则表达式;或,计算所述候选敏感字符集中字符串的熵值,将熵值大于预设阈值的字符串确定为目标字符串;
[0010]将所述目标字符串确定为包含敏感信息的字符串
[0011]可选地,所述各平台敏感信息包括各平台的密码,所述特征信息包括密码的固有字段,和/或,长度。
[0012]可选地,所述计算所述候选敏感字符集中字符串的熵值,包括:
[0013]确定所述字符串的字符个数,和所述字符串内的字符的集合大小,所述字符的集合大小为字符所在集合的大小;
[0014]其中,所述集合包括:数字集合、大写字母集合、小写字母集合和特殊字符集合;其中,所述数字集合的大小为10,所述大写字母的集合为26,所述小写字母集合的大小为26;
[0015]基于所述字符串的字符个数和该字符串内字符的集合大小,确定该字符串的熵值。
[0016]可选地,所述获取待检测文件,包括:
[0017]基于预设周期频率,从代码存储端获取待检测文件;
[0018]和/或,在所述代码存储端新增文件时,实时获取新增的文件,作为待检测文件。
[0019]可选地,所述从所述待检测文件中提取字符串,得到候选敏感字符集,包括:
[0020]从所述待检测文件中提取目标结构化字符串,得到候选敏感字符集;
[0021]其中,将所述目标结构化字符包括目标标识内的字符串和配置文件的配置项值。
[0022]可选地,还包括:
[0023]基于预设过滤规则,生成过滤白名单;
[0024]对所述目标字符串中与所述过滤白名单中相同的字符串进行过滤,得到不包括所述过滤白名单中的字符串的目标字符串;
[0025]所述基于所述目标字符串,生成检测报告,包括:
[0026]基于所述不包括所述过滤白名单中的字符串的目标字符串,生成检测报告。
[0027]可选地,还包括:
[0028]生成并展示包括所述目标字符串、所述目标字符串所在文件名称、所述目标字符串在文件中的行号的的检测报告。
[0029]第二方面,一种敏感信息检测装置,包括:
[0030]获取模块,用于获取待检测文件;
[0031]预处理模块,从所述待检测文件中提取字符串,得到候选敏感字符集;
[0032]检测模块,用于基于预设正则表达式,对所述候选敏感字符集中的字符串进行匹配检测,并将与所述预设正则表达式匹配的字符串确定为目标字符串;其中,所述预设正则表达式包括基于敏感信息的特征信息生成的正则表达式;或,计算所述候选敏感字符集中字符串的熵值,将熵值大于预设阈值的字符串确定为目标字符串;并将所述目标字符串确定为包含敏感信息的字符串。
[0033]第三方面,一种电子设备,包括:
[0034]至少一个处理器;以及
[0035]与所述至少一个处理器通信连接的存储器;其中,
[0036]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的敏感信息检测方法。
[0037]第四方面,一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述的敏感信息检测方法。
[0038]第五方面,一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述的敏感信息检测方法。
[0039]本专利技术提供的技术方案至少具备如下有益效果:
[0040]本专利技术涉及数据安全
,具体公开一种敏感信息检测方法、装置和相关设备,该方法包括:首先获取待检测文件;然后从待检测文件中提取字符串,得到候选敏感字符集;再基于预设正则表达式,对候选敏感字符集中的字符串进行匹配检测,将与预设正则表达式匹配的字符串确定为目标字符串;其中,预设正则表达式包括基于敏感信息的特征信息生成的正则表达式;或,计算候选敏感字符集中字符串的熵值,并将熵值大于预设阈值的字符串确定为目标字符串;将目标字符串确定为包含敏感信息的字符串。如此,可以检测已有文件中是否存在敏感信息,从而供相关工作人员及时对文件进行修改,避免泄露密码,保证数据安全。
附图说明
[0041]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0042]图1为本申请实施例提供的敏感信息检测方法的流程示意图;
[0043]图2为本申请实施例提供的敏感信息检测方法中计算字符串熵值的流程示意图;
[0044]图3为本申请另一实施例提供的敏感信息检测方法的流程示意图;
[0045]图4位本申请实施例提供的敏感信息检测装置的结构示意图;
[0046]图5位本申请另一实施例提供的敏感信息检测装置的工作原理图;
[0047]图6为本专利技术实施例提供的一种电子设备的结构示意图。
具体实施方式
[0048]为使本专利技术的目的、技术方案和优点更加清楚,下面将对本专利技术的技术方案进行详细的描述。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本专利技术所保护的范围。
[0049]如
技术介绍
记载,在企业代码开发的持续集成和持续部署过程中,敏感信息极易泄露,但是现有技术中,并没有有效的检测方法,导致数据安全性较低。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种敏感信息检测方法,其特征在于,包括:获取待检测文件;从所述待检测文件中提取字符串,得到候选敏感字符集;基于预设正则表达式,对所述候选敏感字符集中的字符串进行匹配检测,并将与所述预设正则表达式匹配的字符串确定为目标字符串;其中,所述预设正则表达式包括基于敏感信息的特征信息生成的正则表达式;或,计算所述候选敏感字符集中字符串的熵值,将熵值大于预设阈值的字符串确定为目标字符串;将所述目标字符串确定为包含敏感信息的字符串。2.根据权利要求1所述的敏感信息检测方法,其特征在于,所述敏感信息包括各平台的密码,所述特征信息包括密码的固有字段,和/或,长度。3.根据权利要求1所述的敏感信息检测方法,其特征在于,所述计算所述候选敏感字符集中字符串的熵值,包括:确定所述字符串的字符个数,和所述字符串内的字符的集合大小,所述字符的集合大小为字符所在集合的大小;其中,所述集合包括:数字集合、大写字母集合、小写字母集合和特殊字符集合;其中,所述数字集合的大小为10,所述大写字母的集合为26,所述小写字母集合的大小为26;基于所述字符串的字符个数和该字符串内字符的集合大小,确定该字符串的熵值。4.根据权利要求1所述的敏感信息检测方法,其特征在于,所述获取待检测文件,包括:基于预设周期频率,从代码存储端获取待检测文件;和/或,在所述代码存储端新增文件时,实时获取新增的文件,作为待检测文件。5.根据权利要求1所述的敏感信息检测方法,其特征在于,所述从所述待检测文件中提取字符串,得到候选敏感字符集,包括:从所述待检测文件中提取目标结构化字符串,得到候选敏感字符集;其中,将所述目标结构化字符包括目标标识内的字符串...

【专利技术属性】
技术研发人员:翁迟迟
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1