一种文档密级自动识别方法技术

技术编号:15640203 阅读:81 留言:0更新日期:2017-06-16 04:25
本发明专利技术公开了一种文档密级自动识别方法,其中,包括:定义特征词项、特征词项分布向量、特征词项库、段落特征词项空间向量、段落基准库以及文档敏感度;进行预处理,基于训练文档,标定训练文档中各段落密级及与之对应的初始敏感度;抽取段落的特征词项,建立段落空间向量,从而构建段落基准库;在待定密的目标文档中对各段落进行敏感度判定时,通过计算待定密段落与段落基准库中各段落的相似度,锁定与待定密段落相似度最大的段落,以其敏感度作为待定密段落的初始敏感值;基于待定密段落与所匹配段落的特征词项所携带的敏感度的差异,修正待定密段落的敏感度,通过计算目标文档所有段落的敏感度,并获取敏感度最高者作为目标文档的敏感度,确定文档的敏感度及其对应密级。

【技术实现步骤摘要】
一种文档密级自动识别方法
本专利技术涉及文档安全
,特别涉及一种文档密级自动识别方法。
技术介绍
随着信息化的快速发展,各类军工企事业单位大力进行信息化建设的同时,对文档的定密技术要求越来越高。目前,自动定密研究很少,而传统的手工标记或分级,往往效率低下且效果不理想。因此利用机器学习等技术对敏感信息进行自动分析、自动定密成了一个重要而实用的技术方向。
技术实现思路
本专利技术的目的在于提供一种基于插件架构的主机监控系统,用于解决上述现有技术的问题。本专利技术一种文档密级自动识别方法,其中,包括:定义特征词项、特征词项分布向量、特征词项库、段落特征词项空间向量、段落基准库以及文档敏感度;进行预处理,基于训练文档,标定训练文档中各段落密级及与之对应的初始敏感度;抽取段落的特征词项,建立段落空间向量,从而构建段落基准库;初始敏感度计算阶段,在待定密的目标文档中对各段落进行敏感度判定时,通过计算待定密段落与段落基准库中各段落的相似度,锁定与待定密段落相似度最大的段落,以其敏感度作为待定密段落的初始敏感值;敏感度修正阶段,基于待定密段落与所匹配段落的特征词项所携带的敏感度的差异,修正待定密段落的敏感度,文档密级确定阶段,通过计算目标文档所有段落的敏感度,并获取敏感度最高者作为目标文档的敏感度,确定文档的敏感度及其对应密级。根据本专利技术的文档密级自动识别方法的一实施例,其中,通过TF-IDF方法构建向量空间模型。根据本专利技术的文档密级自动识别方法的一实施例,其中,特征词项库获取框架获取段落特征词项,特征词项库获取框架包括:χ2值越大,则词项与段落文本敏感度相关性就大;χ2值越小,则词项与段落文本敏感度相关性就小:式(1)表示,对任意词项t,其中k11代表在训练文本集中,所有涉密段落文本集c中包含词t的段落文本个数,k00代表在涉密段落文本集c中不包含词项t的段落文本个数;k01代表在非密段落文本集中包含词t的段落文本个数,k10代表在非密段落文本集中不包含词项t的段落文本个数;N代表两类集合中文档的总数量,即训练文本集中的段落总数N=k11+k00+k01+k10,sgn(x)表示取χ2的正负号符号;通过对涉密段落文本集合和非涉密段落文本集合的词项频率统计,用带有正负符号的χ2分布计算值,最后通过阈值过滤来得到特征词项。根据本专利技术的文档密级自动识别方法,其中,获取特征词项的方法包括:第一步:收集训练库;第二步:对段落文本集合进行分词;第三步:对有实际意义的词项进行进一步筛选,将过滤后所得词项在当前涉密段落文本中进行词项出现次数统计,当大于阈值θ的词项,列入候选特征词项;第四步:统计候选特征词项出现段落数目;第五步:计算候选特征词项敏感度相关性,将相关性大于阈值的词项加入到特征词项库中。根据本专利技术的文档密级自动识别方法的一实施例,其中,训练文档的密级由该文档所标定的敏感度标定,敏感度在[90-100]范围内为绝密、敏感度在[80-90]范围内为机密、敏感度在[70-80]范围内为秘密、敏感度在[60-70]范围内为内部、敏感度在[50-60]范围内为非密。根据本专利技术的文档密级自动识别方法的一实施例,其中,进行预处理,基于训练文档,标定训练文档中各段落密级及与之对应的初始敏感度包括:依次扫描训练库中各文本的每个段落文本,选定任一训练文档S,对其各段落进行密级和初始敏感度的标定,训练库代表颐定密的we文本;对于当前训练段落文本,根据特征词项库获取框架,提取该段落的若干特征词项,对每个特征词项,计算词项的权值,由所有特征词项及其权值构成当前训练段落文本的特征词项空间向量,以此表示段落基本特征信息;完成训练库中所有文本的所有段落的特征词项空间向量的构建及其相关数据结构的初始化,形成段落基准库;训练文档的敏感度由该文档所有段落中敏感度最高的段落的敏感度决定,由此以标定目标文档的敏感度。本专利技术的文档密级自动识别方法,特别适合于重点领域的大型军工企业涉密文档管理。通过文档密级自动识别方法对对军工企业涉密内网的所有文档进行密级识别,防范敏感信息的泄露,能够满足各类涉密信息安全可控的需求。附图说明无具体实施方式为使本专利技术的目的、内容、和优点更加清楚,下面结合实施例,对本专利技术的具体实施方式作进一步详细描述。本专利技术文档密级自动识别方法中的文档密级自动识别方法实现军工企业内网文档的自动定密。本专利技术文档密级自动识别方法的思想包括:文档的密级由文档中的密级最高的文本块决定。本专利技术中,基于文档物理结构特征,以段落为单位,通过识别每个段落的敏感度,来标定文档的敏感度。而全网文档每个段落通过向量空间模型(VSM)来构建段落空间向量,代表段落的基本信息。预处理阶段,由定密管理员基于训练文档,标定训练文档中各段落密级及与之对应的初始敏感度;同时抽取段落的特征词项,建立段落空间向量,从而构建段落基准库。初始敏感度计算阶段,在待定密的目标文档中对各段落进行敏感度判定时,通过计算待定密段落与段落基准库中各段落的相似度,锁定与待定密段落相似度最大的段落,以其敏感度作为待定密段落的初始敏感值;敏感度修正阶段,基于待定密段落与所匹配段落的特征词项所携带的敏感度的差异,修正待定密段落的敏感度。文档密级确定阶段,通过计算目标文档所有段落的敏感度,并获取敏感度最高者作为目标文档的敏感度,确定文档的敏感度及其对应密级。本专利技术中的文档密级自动识别方法包括:一、基本定义及预处理军工企业中目标文档的保密等级一般分为绝密、机密、秘密、内部和公开五类,本专利技术对应这五类保密等级使用一至五级标识,且每一级保密等级都对应特定的敏感度范围,如一级对应敏感值域为[90,100]、二级对应敏感值域为[80,90]、三级对应敏感值域为[70,80]、四级对应敏感值域为[60,70]、五级对应敏感值域为[50,60],文档级文档中各段落同时以敏感度及密级两种方式进行标注,且密级直接由敏感度的取值标定。基本定义包括:定义1:特征词项。对反映段落文本信息敏感程度贡献较为显著的词汇。定义2:特征词项分布向量。包含特征词项,敏感贡献度以及其在各类密级段落文本中的出现频率。{word,weight,avgcountinRl,…countinRn,countinn,floatpercent};其中,word为特征词项;weight为敏感贡献度;avg_count_in_Rn为该特征词项在密级为n的段落文本中出现的平均次数。n记录特征词项在本段落中出现的次数,percent记录特征词项在本段落中占所有特征词项比例的统计情况。定义3:特征词项库。由训练文本中所有特征词项构成,在训练阶段通过特征词项库获取框架构建。定义4:段落特征词项空间向量。由段落中提取出的特征词项及其权值组成的集合,构建段落特征词项空间向量,代表一个段落的基本特征信息。定义5:段落基准库。所有训练文本的段落特征词项空间向量集合,用于存储从训练文本库中提取的能代表各段落特征信息的段落特征词项向量。定义6:文档敏感度。代表文档敏感程度的值,值域为50-100。预处理包括:依次扫描训练库中各文本的每个段落文本,首先,定密人员在训练库中选定任一训练文档S,对其各段落Si进行密级和初始敏感度的标定{绝密(取初始敏感度为95)、机密(取初始敏感度为85)、本文档来自技高网...

【技术保护点】
一种文档密级自动识别方法,其特征在于,包括:定义特征词项、特征词项分布向量、特征词项库、段落特征词项空间向量、段落基准库以及文档敏感度;进行预处理,基于训练文档,标定训练文档中各段落密级及与之对应的初始敏感度;抽取段落的特征词项,建立段落空间向量,从而构建段落基准库;初始敏感度计算阶段,在待定密的目标文档中对各段落进行敏感度判定时,通过计算待定密段落与段落基准库中各段落的相似度,锁定与待定密段落相似度最大的段落,以其敏感度作为待定密段落的初始敏感值;敏感度修正阶段,基于待定密段落与所匹配段落的特征词项所携带的敏感度的差异,修正待定密段落的敏感度,文档密级确定阶段,通过计算目标文档所有段落的敏感度,并获取敏感度最高者作为目标文档的敏感度,确定文档的敏感度及其对应密级。

【技术特征摘要】
1.一种文档密级自动识别方法,其特征在于,包括:定义特征词项、特征词项分布向量、特征词项库、段落特征词项空间向量、段落基准库以及文档敏感度;进行预处理,基于训练文档,标定训练文档中各段落密级及与之对应的初始敏感度;抽取段落的特征词项,建立段落空间向量,从而构建段落基准库;初始敏感度计算阶段,在待定密的目标文档中对各段落进行敏感度判定时,通过计算待定密段落与段落基准库中各段落的相似度,锁定与待定密段落相似度最大的段落,以其敏感度作为待定密段落的初始敏感值;敏感度修正阶段,基于待定密段落与所匹配段落的特征词项所携带的敏感度的差异,修正待定密段落的敏感度,文档密级确定阶段,通过计算目标文档所有段落的敏感度,并获取敏感度最高者作为目标文档的敏感度,确定文档的敏感度及其对应密级。2.如权利要求1所述的文档密级自动识别方法,其特征在于,通过TF-IDF方法构建向量空间模型。3.如权利要求1所述的文档密级自动识别方法,其特征在于,特征词项库获取框架获取段落特征词项,特征词项库获取框架包括:χ2值越大,则词项与段落文本敏感度相关性就大;χ2值越小,则词项与段落文本敏感度相关性就小:式(1)表示,对任意词项t,其中k11代表在训练文本集中,所有涉密段落文本集c中包含词t的段落文本个数,k00代表在涉密段落文本集c中不包含词项t的段落文本个数;k01代表在非密段落文本集中包含词t的段落文本个数,k10代表在非密段落文本集中不包含词项t的段落文本个数;N代表两类集合中文档的总数量,即训练文本集中的段落...

【专利技术属性】
技术研发人员:谢梅孟宪哲姚金利曾颖明郝帅肖曾淑娟
申请(专利权)人:北京计算机技术及应用研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1