一种电子文档涉密等级自动检测系统技术方案

技术编号:39143700 阅读:15 留言:0更新日期:2023-10-23 14:55
本发明专利技术涉及一种电子文档涉密等级自动检测系统,属于信息安全技术领域。本发明专利技术支持多种电子文档涉密等级自动检测。通过电子文档转换,能够将MSOffice电子文档、OpenOffice电子文档、WPS电子文档等多种类型电子文档转换成PDF文档,然后提取自动提取PDF文档文本内容进行涉密词检测和溯源,实现了多种电子文档涉密等级自动检测;支持密级检测结果追溯和确认。通过分页提取电子文档文本进行密级检测,实现了涉密词按文档页号,以及起始字符和结束字符序号定位,支持电子文档密级检测结果的追溯和确认;具备较高的涉密词检测效率。通过构建涉密词前缀树,并基于涉密词前缀树进行涉密词匹配,可以有效减少涉密词比对次数,从而提高电子文档涉密词检测效率。子文档涉密词检测效率。子文档涉密词检测效率。

【技术实现步骤摘要】
一种电子文档涉密等级自动检测系统


[0001]本专利技术属于信息安全
,具体涉及一种电子文档涉密等级自动检测系统。

技术介绍

[0002]在党政、军工等涉及国家秘密的单位中,大量文件以电子文档的形式在涉密系统内流转,文档定密随之产生。涉密文档,关系国家的安全和利益。因此,文档定密十分重要,文档定密流程一般包括:首先由文档编制人员提出初步定密意见,然后由技术负责人审查,再由技术领导审核,最后由定密责任人确定。文档定密工作主要包括确定文档涉密等级,确定文档知悉范围,确定文档保密期限等内容。
[0003]现阶段,文档定密大多保持着传统的人工定密方式。传统人工定密需耗费大量的人员和精力,且定密完全依赖于人的主观判断,从而导致文档定密结果不够准确和统一。近年来,也出现了一些辅助人工定密的密级检测技术和方法,但存在以下不足之处:
[0004](1)现有密级检测技术和方法大多面向文本数据,而不是直接针对电子文档。当前电子文档类型众多,如MSOffice电子文档、OpenOffice电子文档、WPS电子文档、PDF文档等,每种类型电子文档都需要与之配套的解析工具才能够提取文档文本数据,从而限制了密级检测技术和方法的应用。
[0005](2)现有密级检测技术和方法一般都维护一个涉密词库,然后遍历涉密词库中所有涉密词确定文本是否涉密,以及涉密等级。然而,随着涉密词库中涉密词数量的增多,密级检测时间会显性增长,检测效率非常低。

技术实现思路

[0006](一)要解决的技术问题
[0007]本专利技术要解决的技术问题是:如何实现针对涉密系统内电子文档的涉密等级自动检测,降低电子文档定密过程中的主观性,提高电子文档定密的效率。
[0008](二)技术方案
[0009]为了解决上述技术问题,本专利技术提供了一种电子文档涉密等级自动检测系统,包括:
[0010]涉密词前缀树构建模块,用于实现涉密词库设计、涉密词录入和涉密词前缀树构建功能;
[0011]文档密级检测模块,用于基于涉密词前缀树构建模块的功能通过文本提取、涉密词检测和涉密词溯源步骤,实现电子文档的涉密等级自动检测功能;
[0012]检测结果模块,用于基于文档密级检测模块的涉密词溯源结果实现判定文档密级,基于文档密级检测模块的涉密词检测结果实现定位文档涉密词功能
[0013]本专利技术还提供了一种利用所述系统实现的电子文档涉密等级自动检测方法。
[0014](三)有益效果
[0015](1)支持多种电子文档涉密等级自动检测。通过电子文档转换,能够将MSOffice电
子文档、OpenOffice电子文档、WPS电子文档等多种类型电子文档转换成PDF文档,然后提取自动提取PDF文档文本内容进行涉密词检测和溯源,实现了多种电子文档涉密等级自动检测。
[0016](2)支持密级检测结果追溯和确认。通过分页提取电子文档文本进行密级检测,实现了涉密词按文档页号,以及起始字符和结束字符序号定位,支持电子文档密级检测结果的追溯和确认。
[0017](3)具备较高的涉密词检测效率。通过构建涉密词前缀树,并基于涉密词前缀树进行涉密词匹配,可以有效减少涉密词比对次数,从而提高电子文档涉密词检测效率。
附图说明
[0018]图1为本专利技术的电子文档涉密等级自动检测系统的工作原理图;
[0019]图2为本专利技术的涉密词前缀树构建原理图;
[0020]图3为本专利技术的涉密词库设计E

R图;
[0021]图4为本专利技术的涉密词前缀树示例图;
[0022]图5为本专利技术的电子文档涉密等级检测原理图;
[0023]图6为本专利技术的涉密词检测流程图。
具体实施方式
[0024]为使本专利技术的目的、内容和优点更加清楚,下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。
[0025]本专利技术提供了一种电子文档涉密等级自动检测系统。本专利技术主要面向党政、军工等涉密单位,为涉密系统内电子文档定密提供辅助手段,降低电子文档定密过程中的主观性,提高电子文档定密的效率。
[0026]电子文档涉密等级自动检测系统的工作原理图如图1所示,该检测系统主要由涉密词前缀树构建模块、文档密级检测模块、检测结果模块等三个模块组成,以下详细说明电子文档涉密等级自动检测系统的具体实现步骤。
[0027]第一步、涉密词前缀树构建模块实现
[0028]涉密词前缀树构建模块主要实现涉密词录入和涉密词前缀树构建功能,目标是提高电子文档涉密词匹配检测效率。涉密词前缀树构建原理图如图2所示。
[0029](1)涉密词库设计
[0030]涉密词库设计主要为包括涉密项目和涉密词两个实体,其E

R图如图3所示。涉密项目包含项目名称、项目密级、知悉范围、保密期限等基本属性,涉密词包含名称、描述、密级等属性,一个涉密项目包含多个涉密词。
[0031](2)涉密词录入
[0032]涉密词录入主要实现涉密词库的维护,包括手动新建涉密词和批量导入涉密词等功能。涉密词录入需要提供包括涉密词名称、描述、涉密等级(公开、秘密、机密、绝密等),以及来源项目等基本信息。
[0033](3)涉密词前缀树构建
[0034]涉密词前缀树是一个由“路径”和“节点”组成的多叉树结构。构建涉密词前缀树的
目的是利用涉密词的公共前缀来减少查询时间,最大限度地减少无谓的涉密词匹配,提高涉密词比对效率。
[0035]涉密词前缀树的构建规则是:根节点不包含字符(即设置为空字符),除根节点外每一个节点都只包含一个字符;从根节点到某一节点(涉密词结尾标识为真),路径上经过的字符连接起来,为该节点对应的涉密字符串(涉密词);每个节点的所有子节点包含的字符都不相同。图4为涉密词前缀树示例图,该示例图由“国防”、“国防动员”、“国家政策”、“国家秘密”、“机密”、“机要”、“机要局”等7个涉密词构建而来,其中有填充色且有字的节点表示从根节点到该节点路径字符组成的字符串为一个完整涉密词。
[0036]第二步、文档密级检测模块实现
[0037]文档密级检测模块主要通过文档转换、文本提取、涉密词匹配和涉密词溯源等步骤,实现电子文档的涉密等级自动检测功能。文档涉密等级自动检测原理图如图5所示。
[0038](1)文档转换
[0039]文档转换主要实现将MS Office电子文档、OpenOffice电子文档、WPS电子文档等类型电子文档转换成PDF文档,便于统一的文档文本按页提取。文档转换通过调用LibreOffice开源办公套件实现文档格式转换,如通过调用命令“soffice
‑‑
headless
‑‑
invisible

convert

to pdf sample.doc”,可将“sample.doc”文档转换成“sample.本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种电子文档涉密等级自动检测系统,其特征在于,包括:涉密词前缀树构建模块,用于实现涉密词库设计、涉密词录入和涉密词前缀树构建功能;文档密级检测模块,用于基于涉密词前缀树构建模块的功能通过文本提取、涉密词检测和涉密词溯源步骤,实现电子文档的涉密等级自动检测功能;检测结果模块,用于基于文档密级检测模块的涉密词溯源结果实现判定文档密级,基于文档密级检测模块的涉密词检测结果实现定位文档涉密词功能。2.如权利要求1所述的系统,其特征在于,所述涉密词前缀树构建模块将涉密词库设计为包括涉密项目和涉密词两个实体,涉密项目包含项目名称、项目密级、知悉范围、保密期限这些基本属性,涉密词包含名称、描述、密级这些属性,一个涉密项目包含多个涉密词。3.如权利要求1所述的系统,其特征在于,所述涉密词前缀树构建模块实现涉密词录入功能具体是实现涉密词库的维护,包括手动新建涉密词和批量导入涉密词功能;涉密词录入时提供包括涉密词名称、描述、涉密等级,以及来源项目这些基本信息;涉密词前缀树是一个由“路径”和“节点”组成的多叉树结构,构建涉密词前缀树是利用涉密词的公共前缀来减少查询时间;涉密词前缀树构建模块实现涉密词前缀树构建的规则是:根节点不包含字符,除根节点外每一个节点都只包含一个字符;从根节点到一节点,路径上经过的字符连接起来,为该节点对应的涉密字符串;每个节点的所有子节点包含的字符都不相同。4.如权利要求1所述的系统,其特征在于,文档密级检测模块在进行文本提取前还执行文档转换步骤;文档密级检测模块实现文档转换是将MS Office电子文档、OpenOffice电子文档、WPS电子文档转换成PDF文档,其中通过调用LibreOffice开源办公套件实现文档格式转换。5.如权利要求3所述的系统,其特征在于,所述文档密级检测模块实现文本提取是按照PDF文档页面顺序分页读取文档文本内容;PDF文档文本提取实现方法:首先,解析PDF文档D;然后,读取文档D总页数n;接下来,遍历i,读取第i页文本text
i
的内容,1≤i≤n,最终,PDF文档表示为D={text1,text2,...,text
n
}。6.如权利要求5所述的系统,其特征在于,所述文档密级检测模块实现涉密词检测是基于涉密词前缀树识别匹配文本text
i
中的涉密词,具体检测流程如下:1)、初始化涉密词前缀子树列表hits为空;2)、加载第i页文本text
i
,遍历文本text
i
中的字符;设k=0;3)、读取文本text
i
第k个字符char...

【专利技术属性】
技术研发人员:陶金龙范瑞娟胡雅頔李浩宇张凤萍杨波
申请(专利权)人:北京计算机技术及应用研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1