一种电子文档涉密等级自动检测系统技术方案

技术编号：39143700 阅读：23 留言：0更新日期：2023-10-23 14:55

本发明专利技术涉及一种电子文档涉密等级自动检测系统，属于信息安全技术领域。本发明专利技术支持多种电子文档涉密等级自动检测。通过电子文档转换，能够将MSOffice电子文档、OpenOffice电子文档、WPS电子文档等多种类型电子文档转换成PDF文档，然后提取自动提取PDF文档文本内容进行涉密词检测和溯源，实现了多种电子文档涉密等级自动检测；支持密级检测结果追溯和确认。通过分页提取电子文档文本进行密级检测，实现了涉密词按文档页号，以及起始字符和结束字符序号定位，支持电子文档密级检测结果的追溯和确认；具备较高的涉密词检测效率。通过构建涉密词前缀树，并基于涉密词前缀树进行涉密词匹配，可以有效减少涉密词比对次数，从而提高电子文档涉密词检测效率。子文档涉密词检测效率。子文档涉密词检测效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种电子文档涉密等级自动检测系统

[0001]本专利技术属于信息安全
，具体涉及一种电子文档涉密等级自动检测系统。

技术介绍

[0002]在党政、军工等涉及国家秘密的单位中，大量文件以电子文档的形式在涉密系统内流转，文档定密随之产生。涉密文档，关系国家的安全和利益。因此，文档定密十分重要，文档定密流程一般包括：首先由文档编制人员提出初步定密意见，然后由技术负责人审查，再由技术领导审核，最后由定密责任人确定。文档定密工作主要包括确定文档涉密等级，确定文档知悉范围，确定文档保密期限等内容。
[0003]现阶段，文档定密大多保持着传统的人工定密方式。传统人工定密需耗费大量的人员和精力，且定密完全依赖于人的主观判断，从而导致文档定密结果不够准确和统一。近年来，也出现了一些辅助人工定密的密级检测技术和方法，但存在以下不足之处：
[0004](1)现有密级检测技术和方法大多面向文本数据，而不是直接针对电子文档。当前电子文档类型众多，如MSOffice电子文档、OpenOffice电子文档、WPS电子文档、PDF文档等，每种类型电子文档都需要与之配套的解析工具才能够提取文档文本数据，从而限制了密级检测技术和方法的应用。
[0005](2)现有密级检测技术和方法一般都维护一个涉密词库，然后遍历涉密词库中所有涉密词确定文本是否涉密，以及涉密等级。然而，随着涉密词库中涉密词数量的增多，密级检测时间会显性增长，检测效率非常低。

技术实现思路

[0006](一)要解决的技术问题
[000...

【技术保护点】

【技术特征摘要】
1.一种电子文档涉密等级自动检测系统，其特征在于，包括：涉密词前缀树构建模块，用于实现涉密词库设计、涉密词录入和涉密词前缀树构建功能；文档密级检测模块，用于基于涉密词前缀树构建模块的功能通过文本提取、涉密词检测和涉密词溯源步骤，实现电子文档的涉密等级自动检测功能；检测结果模块，用于基于文档密级检测模块的涉密词溯源结果实现判定文档密级，基于文档密级检测模块的涉密词检测结果实现定位文档涉密词功能。2.如权利要求1所述的系统，其特征在于，所述涉密词前缀树构建模块将涉密词库设计为包括涉密项目和涉密词两个实体，涉密项目包含项目名称、项目密级、知悉范围、保密期限这些基本属性，涉密词包含名称、描述、密级这些属性，一个涉密项目包含多个涉密词。3.如权利要求1所述的系统，其特征在于，所述涉密词前缀树构建模块实现涉密词录入功能具体是实现涉密词库的维护，包括手动新建涉密词和批量导入涉密词功能；涉密词录入时提供包括涉密词名称、描述、涉密等级，以及来源项目这些基本信息；涉密词前缀树是一个由“路径”和“节点”组成的多叉树结构，构建涉密词前缀树是利用涉密词的公共前缀来减少查询时间；涉密词前缀树构建模块实现涉密词前缀树构建的规则是：根节点不包含字符，除根节点外每一个节点都只包含一个字符；从根节点到一节点，路径上经过的字符连接起来，为该节点对应的涉密字符串；每个节点的所有子节点包含的字符都不相同。4.如权利要求1所述的系统，其特征在于，文档密级检测模块在进行文本提取前还执行文档转换步骤；文档密级检测模块实现文档转换是将MS Office电子文档、OpenOffice电子文档、WPS电子文档转换成PDF文档，其中通过调用LibreOffice开源办公套件实现文档格式转换。5.如权利要求3所述的系统，其特征在于，所述文档密级检测模块实现文本提取是按照PDF文档页面顺序分页读取文档文本内容；PDF文档文本提取实现方法：首先，解析PDF文档D；然后，读取文档D总页数n；接下来，遍历i，读取第i页文本text
i
的内容，1≤i≤n，最终，PDF文档表示为D＝{text1，text2，...，text
n
}。6.如权利要求5所述的系统，其特征在于，所述文档密级检测模块实现涉密词检测是基于涉密词前缀树识别匹配文本text
i
中的涉密词，具体检测流程如下：1)、初始化涉密词前缀子树列表hits为空；2)、加载第i页文本text
i
，遍历文本text
i
中的字符；设k＝0；3)、读取文本text
i
第k个字符char...

【专利技术属性】
技术研发人员：陶金龙，范瑞娟，胡雅頔，李浩宇，张凤萍，杨波，
申请(专利权)人：北京计算机技术及应用研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人