数据库敏感信息检查方法技术

技术编号:29017240 阅读:15 留言:0更新日期:2021-06-26 05:17
本发明专利技术公开了一种数据库敏感信息检查方法,包括以下步骤:检查关键字设置、采集数据库信息、涉密信息检查、涉密信息自动消除和检查结果输出。本方法能够对数据库内的涉密信息进行高效快速检查,且检查精度高,误报率低。误报率低。误报率低。

【技术实现步骤摘要】
数据库敏感信息检查方法


[0001]本专利技术涉及信息分析处理领域,尤其涉及一种数据库敏感信息检查方法。

技术介绍

[0002]在大数据、云计算背景下,越来越多的数据集中到数据中心数据库中集中存储,数据分散在不同的海量数据库表中,形成了海量、大数据、分布式等新的特点。
[0003]1)数据中心数据库存储数据量越来越大,一般达到50T以上;
[0004]2)数据中心数据库存储数据种类越来越多,包括结构化数据、非结构化数据、图片、文本、音视频数据等常常呈现的特点。
[0005]这些新的特点是保密工作者采用传统的检查手段所不能胜任的;因此必须依据新形势、新特点适时创造新的数据库检查工具才能应对数据资产集中化和大数据化所带来的严峻安全挑战。

技术实现思路

[0006]有鉴于此,本专利技术提供了一种数据库敏感信息检查方法,能够对数据库内的涉密信息进行高效快速检查,且检查精度高,误报率低。
[0007]为解决上述问题,本专利技术所采取的技术方案是:
[0008]一种数据库敏感信息检查方法,包括以下步骤:检查关键字设置、采集数据库信息、涉密信息检查和涉密信息自动消除。
[0009]更进一步的技术方案是,还包括检查结果输出。
[0010]更进一步的技术方案是,所述检查关键字设置具体为:采用智能语义样本分析方式,通过对往期文件内容的识别,结合机器学习技术,生成自动生成检查关键字;采用语义智能分析方式智能扩充和完善检查关键字,机器学习技术可以在不断的检查过程中,完善学习进程,对敏感关键字库进行补充。
[0011]更进一步的技术方案是,所述采用语义智能分析方式智能扩充和完善检查关键字包括:对不同行业的检查关键字基于同义、近义属性算法进行智能扩充搜索;对不同行业的涉密语义进行分析,采用智能语义组合技术,将检查关键字和若干要素词组合对检查关键字进行完善,通过对不同行业的敏感关键子的识别和机器学习、形成一套自动化更新的敏感字库。
[0012]更进一步的技术方案是,所述采集数据库信息具体为:采用大数据Sqoop技术实现数据的分布式采集。分布式采集可针对多数据库、高并发应用场景的敏感字识别提供基础保障,可以保证在高并发场景下的敏感字检查的高效率,防止出现高并发时,出现检查引擎性能不足和检查不全面的情况。
[0013]更进一步的技术方案是,所述涉密信息检查具体为:采用大数据MapReduce技术实现对采集到的信息进行分布式检查,将采集到的信息与敏感字样本库中的内容进行逐一比对,将对比成功的信息进行标记,告警。
[0014]更进一步的技术方案是,所述检查支持对采集到的信息中的所有文本文档的涉密信息检查;支持对采集到的信息中的所有图片文件的涉密信息检查,能够自动对嵌入到图像中的文字进行检索、提取并作出警示。
[0015]更进一步的技术方案是,所述涉密信息自动消除具体为:加密处理,对检查出的涉密信息采用密码算法进行加密处理。将涉密信息修正为无法有效辨认的特殊密码字段,防止敏感信息外泄。
[0016]更进一步的技术方案是,所述涉密信息自动消除具体为:格式保密保护,对检查出的涉密信息进行格式保留保护处理,能在保证原有信息的格式不被破坏的情况下,保护数据的敏感性。比如敏感字是“张亮”,可以修正为同格式无意义的“张三”。
[0017]更进一步的技术方案是,所述涉密信息自动消除具体为:替换处理,对检查出的涉密信息采用特殊字符替换的方式进行处理。使涉密信息无法识别,达到保密的目的。
[0018]本专利技术的有益效果在于:
[0019](1)采用大数据Sqoop技术实现数据的分布式采集,通过分布式数据抓取技术,实现数据高效采集。
[0020](2)采用大数据MapReduce技术实现对采集到的信息进行分布式检查,检查效率高达传统检查效率的200

300倍。
[0021](3)采用内存数据库实现中间结果数据存储,一旦检查完成或系统撤离检查现场,则自动断电或重启,用户数据自动销毁,达到检查不留痕、数据不带走的安全要求。
[0022](4)支持对采集到的信息中的所有文本文档(Word、PDF等)的涉密信息检查;支持对采集到的信息中的所有图片文件的涉密信息检查,能够自动对嵌入到图像中的文字进行检索、提取并作出警示。检查类型多,识别率高,定位精准:识别精度达到80%以上。
[0023](5)检查精度高,能在海量数据库内容中精准定位涉密信息或数据,误报率低。
附图说明
[0024]图1为本专利技术的系统原理图;
[0025]图2为本专利技术的流程示意图。
具体实施方式
[0026]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。
[0027]如图1所示,是本专利技术的系统原理图。
[0028]一种数据库敏感信息检查方法,如图2所示,包括以下步骤:检查关键字设置、采集数据库信息、涉密信息检查、涉密信息自动消除和检查结果输出。检查完成后将会生成详尽的检查报告,用于指导下一步的整改工作。
[0029]所述检查关键字设置具体为:采用智能语义样本分析方式,通过学习自动生成检查关键字,具体为根据用户提供的样本文档,形成关键字库;采用语义智能分析方式智能扩充和完善检查关键字。所述采用语义智能分析方式智能扩充和完善检查关键字包括:对不同行业的检查关键字基于同义、近义属性算法进行智能扩充搜索,极大提高了检索命中率;
对不同行业的涉密语义进行分析,采用智能语义组合技术,将检查关键字和若干要素词组合对检查关键字进行完善,比如:文件中仅仅有装备这个词就认为是涉密信息的错误概率就比较大,但是装备与数字/英文结合的文字说明是涉密信息的可能性就比较大。又比如:包含演习这个词未必涉密,但是演习与15军/旅/团/营的数字结合说明是涉密信息的可能性就很大,采用这种专利技术,准确率可以提高200%。
[0030]所述采集数据库信息具体为:采用大数据Sqoop技术实现数据的分布式采集。通过分布式数据抓取技术,实现数据高效采集。分布式采集可针对多数据库、高并发应用场景的敏感字识别提供基础保障,可以保证在高并发场景下的敏感字检查的高效率,防止出现高并发时,出现检查引擎性能不足和检查不全面的情况。
[0031]所述涉密信息检查具体为:采用大数据MapReduce技术实现对采集到的信息进行分布式检查,将采集到的信息与敏感字样本库中的内容进行逐一比对,将对比成功的信息进行标记,告警。检查效率高达传统检查效率的200

300倍。在本实施例中,采用内存数据库实现中间结果数据存储,一旦检查完成或系统撤离检查现场,则自动断电或重启,用户数据自动销毁,达到检查不留痕、数据不带走的安全要求。支持对采集到的信息中的所有文本文档(Word、PDF等)的涉密信息检查;支持对采集到的信息中的所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据库敏感信息检查方法,其特征在于包括以下步骤:检查关键字设置、采集数据库信息、涉密信息检查和涉密信息自动消除。2.根据权利要求1所述的数据库敏感信息检查方法,其特征在于:还包括检查结果输出。3.根据权利要求1所述的数据库敏感信息检查方法,其特征在于:所述检查关键字设置具体为:采用智能语义样本分析方式,通过对往期文件内容的识别,结合机器学习技术,生成自动生成检查关键字;采用语义智能分析方式智能扩充和完善检查关键字。4.根据权利要求3所述的数据库敏感信息检查方法,其特征在于:所述采用语义智能分析方式智能扩充和完善检查关键字包括:对不同行业的检查关键字基于同义、近义属性算法进行智能扩充搜索;对不同行业的涉密语义进行分析,采用智能语义组合技术,将检查关键字和若干要素词组合对检查关键字进行完善。5.根据权利要求1所述的数据库敏感信息检查方法,其特征在于:所述采集数据库信息具体为:采用大数据Sqoop技术实现数据的分布式采集。6.根据权利要求1所述的数据库敏感信息检查方法,其特征在于:所...

【专利技术属性】
技术研发人员:门嘉平
申请(专利权)人:北京国联易安信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1