信息、笔记信息、代码检测方法、设备及存储介质技术

技术编号:30342318 阅读:46 留言:0更新日期:2021-10-12 23:15
本申请实施例提供一种信息、笔记信息、代码检测方法、设备及存储介质。在本申请的一些实施例中,采用双阶段检测敏感信息,第一阶段根据预设的检测规则,从待检测内容中识别出疑似敏感信息,提高敏感信息检出率;第二阶段根据设定的过滤方式,从疑似敏感信息中过滤出目标敏感信息,从疑似敏感信息中剔除误报的疑似敏感信息;本申请实施例的信息检测方法,提高敏感信息的检出精度。敏感信息的检出精度。敏感信息的检出精度。

【技术实现步骤摘要】
信息、笔记信息、代码检测方法、设备及存储介质


[0001]本申请涉及数据处理
,尤其涉及一种信息、笔记信息、代码检测方法、设备及存储介质。

技术介绍

[0002]随着信息处理技术的迅速发展,网络应用和计算机软件被广泛应用于各行各业当中。软件开发过程中,开发人员存在将用户名密码、数据库凭证、访问令牌、开发密钥等敏感信息明文写在代码文件和测试文件里,造成数据泄露等重大问题。
[0003]目前,对敏感信息的检测方式主要有两种:规则检测和信息熵检测。其中,规则检测依赖变量命名和代码写法,容易造成漏报;规则检测对于不同语言的不同语法,对于变量赋值、方法调用等用法,容易造成误报。信息熵检测通过计算代码行混乱程度,确定是否包含随机生成的密钥信息,但是准确率非常低。

技术实现思路

[0004]本申请的多个方面提供一种信息、笔记信息、代码检测方法、设备及存储介质,减少敏感信息误报,提高检出率。
[0005]本申请实施例提供一种信息检测方法,包括:
[0006]获取待检测内容;
[0007]根据预设的检测规则,从待检测内容中检测出疑似敏感信息;
[0008]根据设定的过滤方式,从疑似敏感信息中过滤出目标敏感信息。
[0009]本申请实施例提供一种信息检测设备,包括:存储器和处理器;
[0010]所述存储器,用于存储一条或多条计算机指令;
[0011]所述处理器,用于执行所述一条或多条计算机指令以用于:
[0012]获取待检测内容;
[0013]根据预设的检测规则,从待检测内容中检测出疑似敏感信息;
[0014]根据设定的过滤方式,从疑似敏感信息中过滤出目标敏感信息。
[0015]本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,当所述计算机程序被一个或多个处理器执行时,致使所述一个或多个处理器执行包括以下的动作:
[0016]获取待检测内容;
[0017]根据预设的检测规则,从待检测内容中检测出疑似敏感信息;
[0018]根据设定的过滤方式,从疑似敏感信息中过滤出目标敏感信息。
[0019]本申请实施例还提供一种笔记信息检测方法,包括:
[0020]获取待检测笔记内容;
[0021]根据预设的检测规则,从待检测笔记内容中检测出疑似敏感信息;
[0022]根据设定的过滤方式,从疑似敏感信息中过滤出目标敏感信息。
[0023]本申请实施例还提供一种信息检测设备,包括:存储器和处理器;
[0024]所述存储器,用于存储一条或多条计算机指令;
[0025]所述处理器,用于执行所述一条或多条计算机指令以用于:
[0026]获取待检测笔记内容;
[0027]根据预设的检测规则,从待检测笔记内容中检测出疑似敏感信息;
[0028]根据设定的过滤方式,从疑似敏感信息中过滤出目标敏感信息。
[0029]本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,当所述计算机程序被一个或多个处理器执行时,致使所述一个或多个处理器执行包括以下的动作:
[0030]获取待检测笔记内容;
[0031]根据预设的检测规则,从待检测笔记内容中检测出疑似敏感信息;
[0032]根据设定的过滤方式,从疑似敏感信息中过滤出目标敏感信息。
[0033]本申请实施例还提供一种代码检测方法,包括:
[0034]获取待检测代码文件;
[0035]响应代码检测操作,对待检测代码文件进行敏感信息检测,其中,对待检测代码文件进行敏感信息检测包括检测阶段和过滤阶段;
[0036]若从待检测代码文件中检测目标敏感信息,则展示所述目标敏感信息。
[0037]本申请实施例还提供一种代码检测设备,包括:存储器和处理器;
[0038]所述存储器,用于存储一条或多条计算机指令;
[0039]所述处理器,用于执行所述一条或多条计算机指令以用于:
[0040]获取待检测代码文件;
[0041]响应代码检测操作,对待检测代码文件进行敏感信息检测,其中,对待检测代码文件进行敏感信息检测包括检测阶段和过滤阶段;
[0042]若从待检测代码文件中检测目标敏感信息,则展示所述目标敏感信息。
[0043]本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,当所述计算机程序被一个或多个处理器执行时,致使所述一个或多个处理器执行包括以下的动作:
[0044]获取待检测代码文件;
[0045]响应代码检测操作,对待检测代码文件进行敏感信息检测,其中,对待检测代码文件进行敏感信息检测包括检测阶段和过滤阶段;
[0046]若从待检测代码文件中检测目标敏感信息,则展示所述目标敏感信息。
[0047]在本申请的一些实施例中,采用双阶段检测敏感信息,第一阶段根据预设的检测规则,从待检测内容中识别出疑似敏感信息,提高敏感信息检出率;第二阶段根据设定的过滤方式,从疑似敏感信息中过滤出目标敏感信息,从疑似敏感信息中剔除误报的疑似敏感信息;本申请实施例的信息检测方法,提高敏感信息的检出精度。
附图说明
[0048]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0049]图1a为本申请示例性实施例提供的一种信息检测方法的流程示意图;
[0050]图1b为本申请实施例提供的另一种信息检测方法的流程设计框架图;
[0051]图2a为本申请示例性实施例提供的另一种信息检测方法的流程示意图;
[0052]图2b为本申请示例性实施例提供的一种代码检测方法的流程示意图;
[0053]图3为本申请示例性实施例提供的一种笔记信息检测方法
[0054]图4为本申请实施例提供的一种信息检测设备的结构示意图;
[0055]图5为本申请实施例提供的一种笔记信息检测设备的结构示意图;
[0056]图6为本申请实施例提供的一种代码检测设备的结构示意图。
具体实施方式
[0057]为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0058]目前,对敏感信息的检测方式主要有以下两种检测方式:
[0059]第一种检测方式,规则检测;规则检测进行敏感信息匹配优势在于准确度较高,可以正则匹配来识别敏感信息,并且具有较好的拓展性。但是,规则匹配一方面非常依赖变量命名和代码写法,容易造成漏报;另一方面,规则匹配对于不同语言的不同语法,对于变量赋值、方法调用等用法,容易造本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息检测方法,其特征在于,包括:获取待检测内容;根据预设的检测规则,从待检测内容中检测出疑似敏感信息;根据设定的过滤方式,从疑似敏感信息中过滤出目标敏感信息。2.根据权利要求1所述的方法,其特征在于,在根据预设的检测规则,从待检测内容中检测出疑似敏感信息之前,还包括:根据待检测内容的类型,在待检测内容的类型与检测规则和过滤方式的映射关系中进行匹配,以获取待检测内容对应的检测规则和过滤方式。3.根据权利要求1所述的方法,其特征在于,根据预设的检测规则,从待检测内容中检测出疑似敏感信息,包括:利用已有的规则匹配模板,从待检测内容中匹配出包含敏感信息的片段,作为疑似敏感信息;对待检测内容中未包含敏感信息的片段进行信息熵检测,以获得疑似敏感信息。4.根据权利要求3所述的方法,其特征在于,利用已有的规则匹配模板,从待检测内容中匹配出包含敏感信息的片段,包括:以行为单位将待检测内容中的内容切分为至少一个待检测片段;分别计算每个待检测片段与各规则匹配模板之间的匹配度;将至少一个待检测片段中的匹配度大于匹配阈值的片段,作为疑似敏感信息。5.根据权利要求3所述的方法,其特征在于,对待检测内容中未包含敏感信息的片段进行信息熵检测,以获得疑似敏感信息,包括:针对第一片段,根据第一片段对应的语法,将第一片段拆分为至少一个子片段,其中,第一片段是所述未包含敏感信息的片段中的任一片段;计算至少一个子片段的信息熵;将至少一个子片段中信息熵大于设定信息熵阈值的子片段,作为疑似敏感信息。6.根据权利要求1所述的方法,其特征在于,根据设定的过滤方式,从疑似敏感信息中过滤出目标敏感信息,包括:根据第一类过滤方式,从疑似敏感信息中过滤出候选疑似敏感信息;根据候选疑似敏感信息的定义类型,从第二类过滤方式中选择与所述定义类型对应的目标过滤方式;利用所述目标过滤方式对候选疑似敏感信息进行过滤,以确定出目标敏感信息。7.根据权利要求6所述的方法,其特征在于,根据第一类过滤方式,从疑似敏感信息中过滤出候选疑似敏感信息,包括:结合疑似敏感信息对应的上下文和/或文件类型,从疑似敏感信息中过滤出候选疑似敏感信息。8.根据权利要求7所述的方法,其特征在于,结合疑似敏感信息对应的上下文,从疑似敏感信息中过滤出候选疑似敏感信息,包括:在疑似敏感信息的上下文中查找特定信息;若未查找到特定信息,则将所述疑似敏感信息确定为候选疑似敏感信息。9.根据权利要求7所述的方法,其特征在于,结合疑似敏感信息对应的文件类型,从疑
似敏感信息中过滤出候选疑似敏感信息,包括:判断疑似敏感信息对应的文件类型是否属于指定文件类型;若是,则降低疑似敏感信息的敏感等级或者确定疑似敏感信息不属于目标敏感信息。10.根据权利要求6所述的方法,其特征在于,若待检测内容为代码文件,所述第二类过滤方式包括语法过滤方式、语义过滤方式和信息熵过滤方式中的至少一种;根据候选疑似敏感信息的定义类型,从第二类过滤方式中选择与所述定义类型对应的目标过滤方式,包括:识别候选疑似敏感信息的定义类型;若所述定义类型为自定义类型,则选择语法过滤方式作为目标过滤方式;若所述定义类型为非自定义类型,则选择语法过滤方式、语义过滤方式和信息熵过滤方式中的至少一种方式作为目标过滤方式。11.根据权利要求10所述的方法,其特征在于,利用所述目标过滤方式对候选疑似敏感信息进行过滤,以确定出目标敏感信息,包括:若目标过滤方式为语法过滤方式,则根据候选疑似敏感信息的语法,判断所述候选疑似敏感信息是否属于定义指定敏感信息的语句;若是,则确定所述候选疑似敏感信息为目标敏感信息。12.根据权利要求10所述的方法,其特征在于,利用所述目标过滤方式对候选疑似敏感信息进行过滤,以确定出目标敏感信息,包括:若目标过滤方式为语义过滤方式,则计算候选疑似敏感信息与预设的词库中的单词的匹配度;根据所述候选疑似敏感信息与预设的词库中的单词的匹配度,计算候选疑似敏感信息的语义值;若所述候选疑似敏感信息的语义值大于语义阈值,则降低语义值大于语义阈值的候选疑似敏感信息的敏感等级;将降低敏感等级后的候选疑似敏感信息的敏感等级与设定等级阈值进行比较;若降低敏感等级后的候选疑似敏感信息的敏感等级大于设定敏感等级,则确定降低敏感等级后的候选疑似敏感信息为目标敏感信息。13.根据权利要求10所述的方法,其特征在于,利用所述目标过滤方式对候选疑似敏感信息进行过滤,以确定出目标敏...

【专利技术属性】
技术研发人员:喻煜阳
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1