信息、笔记信息、代码检测方法、设备及存储介质技术

技术编号：30342318 阅读：57 留言：0更新日期：2021-10-12 23:15

本申请实施例提供一种信息、笔记信息、代码检测方法、设备及存储介质。在本申请的一些实施例中，采用双阶段检测敏感信息，第一阶段根据预设的检测规则，从待检测内容中识别出疑似敏感信息，提高敏感信息检出率；第二阶段根据设定的过滤方式，从疑似敏感信息中过滤出目标敏感信息，从疑似敏感信息中剔除误报的疑似敏感信息；本申请实施例的信息检测方法，提高敏感信息的检出精度。敏感信息的检出精度。敏感信息的检出精度。

全部详细技术资料下载

【技术实现步骤摘要】
信息、笔记信息、代码检测方法、设备及存储介质

[0001]本申请涉及数据处理
，尤其涉及一种信息、笔记信息、代码检测方法、设备及存储介质。

技术介绍

[0002]随着信息处理技术的迅速发展，网络应用和计算机软件被广泛应用于各行各业当中。软件开发过程中，开发人员存在将用户名密码、数据库凭证、访问令牌、开发密钥等敏感信息明文写在代码文件和测试文件里，造成数据泄露等重大问题。
[0003]目前，对敏感信息的检测方式主要有两种：规则检测和信息熵检测。其中，规则检测依赖变量命名和代码写法，容易造成漏报；规则检测对于不同语言的不同语法，对于变量赋值、方法调用等用法，容易造成误报。信息熵检测通过计算代码行混乱程度，确定是否包含随机生成的密钥信息，但是准确率非常低。

技术实现思路

[0004]本申请的多个方面提供一种信息、笔记信息、代码检测方法、设备及存储介质，减少敏感信息误报，提高检出率。
[0005]本申请实施例提供一种信息检测方法，包括：
[0006]获取待检测内容；
[0007]根据预设的检测规则，从待检测内容中检测出疑似敏感信息；
[0008]根据设定的过滤方式，从疑似敏感信息中过滤出目标敏感信息。
[0009]本申请实施例提供一种信息检测设备，包括：存储器和处理器；
[0010]所述存储器，用于存储一条或多条计算机指令；
[0011]所述处理器，用于执行所述一条或多条计算机指令以用于：
[0012]获取待检测内容；
[0...

【技术保护点】

【技术特征摘要】
1.一种信息检测方法，其特征在于，包括：获取待检测内容；根据预设的检测规则，从待检测内容中检测出疑似敏感信息；根据设定的过滤方式，从疑似敏感信息中过滤出目标敏感信息。2.根据权利要求1所述的方法，其特征在于，在根据预设的检测规则，从待检测内容中检测出疑似敏感信息之前，还包括：根据待检测内容的类型，在待检测内容的类型与检测规则和过滤方式的映射关系中进行匹配，以获取待检测内容对应的检测规则和过滤方式。3.根据权利要求1所述的方法，其特征在于，根据预设的检测规则，从待检测内容中检测出疑似敏感信息，包括：利用已有的规则匹配模板，从待检测内容中匹配出包含敏感信息的片段，作为疑似敏感信息；对待检测内容中未包含敏感信息的片段进行信息熵检测，以获得疑似敏感信息。4.根据权利要求3所述的方法，其特征在于，利用已有的规则匹配模板，从待检测内容中匹配出包含敏感信息的片段，包括：以行为单位将待检测内容中的内容切分为至少一个待检测片段；分别计算每个待检测片段与各规则匹配模板之间的匹配度；将至少一个待检测片段中的匹配度大于匹配阈值的片段，作为疑似敏感信息。5.根据权利要求3所述的方法，其特征在于，对待检测内容中未包含敏感信息的片段进行信息熵检测，以获得疑似敏感信息，包括：针对第一片段，根据第一片段对应的语法，将第一片段拆分为至少一个子片段，其中，第一片段是所述未包含敏感信息的片段中的任一片段；计算至少一个子片段的信息熵；将至少一个子片段中信息熵大于设定信息熵阈值的子片段，作为疑似敏感信息。6.根据权利要求1所述的方法，其特征在于，根据设定的过滤方式，从疑似敏感信息中过滤出目标敏感信息，包括：根据第一类过滤方式，从疑似敏感信息中过滤出候选疑似敏感信息；根据候选疑似敏感信息的定义类型，从第二类过滤方式中选择与所述定义类型对应的目标过滤方式；利用所述目标过滤方式对候选疑似敏感信息进行过滤，以确定出目标敏感信息。7.根据权利要求6所述的方法，其特征在于，根据第一类过滤方式，从疑似敏感信息中过滤出候选疑似敏感信息，包括：结合疑似敏感信息对应的上下文和/或文件类型，从疑似敏感信息中过滤出候选疑似敏感信息。8.根据权利要求7所述的方法，其特征在于，结合疑似敏感信息对应的上下文，从疑似敏感信息中过滤出候选疑似敏感信息，包括：在疑似敏感信息的上下文中查找特定信息；若未查找到特定信息，则将所述疑似敏感信息确定为候选疑似敏感信息。9.根据权利要求7所述的方法，其特征在于，结合疑似敏感信息对应的文件类型，从疑
似敏感信息中过滤出候选疑似敏感信息，包括：判断疑似敏感信息对应的文件类型是否属于指定文件类型；若是，则降低疑似敏感信息的敏感等级或者确定疑似敏感信息不属于目标敏感信息。10.根据权利要求6所述的方法，其特征在于，若待检测内容为代码文件，所述第二类过滤方式包括语法过滤方式、语义过滤方式和信息熵过滤方式中的至少一种；根据候选疑似敏感信息的定义类型，从第二类过滤方式中选择与所述定义类型对应的目标过滤方式，包括：识别候选疑似敏感信息的定义类型；若所述定义类型为自定义类型，则选择语法过滤方式作为目标过滤方式；若所述定义类型为非自定义类型，则选择语法过滤方式、语义过滤方式和信息熵过滤方式中的至少一种方式作为目标过滤方式。11.根据权利要求10所述的方法，其特征在于，利用所述目标过滤方式对候选疑似敏感信息进行过滤，以确定出目标敏感信息，包括：若目标过滤方式为语法过滤方式，则根据候选疑似敏感信息的语法，判断所述候选疑似敏感信息是否属于定义指定敏感信息的语句；若是，则确定所述候选疑似敏感信息为目标敏感信息。12.根据权利要求10所述的方法，其特征在于，利用所述目标过滤方式对候选疑似敏感信息进行过滤，以确定出目标敏感信息，包括：若目标过滤方式为语义过滤方式，则计算候选疑似敏感信息与预设的词库中的单词的匹配度；根据所述候选疑似敏感信息与预设的词库中的单词的匹配度，计算候选疑似敏感信息的语义值；若所述候选疑似敏感信息的语义值大于语义阈值，则降低语义值大于语义阈值的候选疑似敏感信息的敏感等级；将降低敏感等级后的候选疑似敏感信息的敏感等级与设定等级阈值进行比较；若降低敏感等级后的候选疑似敏感信息的敏感等级大于设定敏感等级，则确定降低敏感等级后的候选疑似敏感信息为目标敏感信息。13.根据权利要求10所述的方法，其特征在于，利用所述目标过滤方式对候选疑似敏感信息进行过滤，以确定出目标敏...

【专利技术属性】
技术研发人员：喻煜阳，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人