【技术实现步骤摘要】
基于prompt的预训练模型计算机辅助定密方法及系统
[0001]本专利技术涉及计算机保密定密管理
,具体指一种基于prompt的预训练模型计算机辅助定密方法及系统。
技术介绍
[0002]随着办公网络技术的普及与发展,很多企事业单位已经实现了办公自动化,这在实现办公信息共享、提高企事业单位办公效率、节约办公成本的同时,也产生了企事业办公信息的泄露问题。作为保密工作基础与源头的定密工作也正在向信息化发展,因此,如何进行高效定密,在定密工作中引入信息化技术成为当前保密领域的迫切需求。
[0003]本专利技术所涉及的计算机辅助定密方法,是根据相关领域的定密依据,将密级划定为“绝密级”、“机密级”、“秘密级”以及“不涉密”,对可能会涉及到保密的各领域文件进行密级判定,从而能够使得各国家单位、企事业单位有效及时地对秘密信息进行保护。
[0004]目前,各级单位的定密主要是采取人工定密的方式,但这种密级界定方式取决于定密负责人的主观想法,很容易造成文件密级模糊,不准确,甚至错误定密的情况。另外,通过计算机来做辅助定密的方法,需要使用专家知识构建的定密规则库,通过不确定推理模型计算不同密级的概率,但这种方法依赖于高质量的、人工定义的定密规则库,导致实施成本很高,在定密领域很难办到。因此,如何通过计算机来辅助定密,同时减少对定密样本数量的依赖,成为当前利用信息化技术手段完成定密工作亟待解决的问题。
技术实现思路
[0005]本专利技术针对现有技术的不足,提出一种基于prompt的预训练模型计算 ...
【技术保护点】
【技术特征摘要】
1.一种基于prompt的预训练模型计算机辅助定密方法,其特征在于,包括如下步骤:S1、构建已定密文件数据集:利用已解密且公开的文件,根据不同相关领域的定密细则,人工对选取的部分文件进行定密,即为初始数据源,再将初始数据源制作成模板的格式,文本模板为:[X_1]?[属于/不属于],[X_2]其中[X_1]为已定密文件,[X_2]为定密依据,如果该替换后文本的“已定密文本
‑
定密依据”对在初始数据源中出现过,则打上[属于]标签,否则打上[不属于]标签,即得到经过模板化处理的已定密文件数据集;S2、构建并训练定密依据关联模型:使用模板化处理后的数据集对预训练模型的参数进行调节,中文预训练模型采用BERT
‑
wwm
‑
ext,得到调节后的预训练模型,即为定密依据关联模型;S3、通过定密依据关联模型进行密级判定。2.根据权利要求1所述的基于prompt的预训练模型计算机辅助定密方法,其特征在于,所述步骤S1中,数据集的获取:已定密文件数据集由已解密的公开文件经过定密、模板化处理后得到,已解密的公开文件通过爬虫工具在互联网爬取。3.根据权利要求1所述的基于prompt的预训练模型计算机辅助定密方法,其特征在于,所述步骤S1中,模板化处理的具体方法如下:设定的模板格式为:首先将[X_1]替换为已定密文本,其次将[属于/不属于]先用[MASK]标签替换,然后将[X_2]替换为定密依据,假设相关领域的定密依据有N条,对于一条已定密文本x,则会产生N条模板化后的文本x
prompt
;将模板化后的文本x
prompt
打上标签y,如果该替换后文本的“定密文本
‑
定密依据”对在已定密文件中出现过,则打上[属于]标签,否则打上[不属于]标签,处理完后将产生的N条样本{(x
prompt
,y)}存入模板化处理后的数据集D
template
中。4.根据权利要求3所述的基于prompt的预训练模型计算机辅助定密方法,其特征在于,所述步骤S2中,定密依据关联模型获取方法:从模板化处理后的数据集D
template
中取出文本x
prompt
和标签y,由于x
prompt
中标签的位置由[MASK]代替,所以可以将其视为遮蔽掩码模型,使用预训练模型预测标签y∈{[属于],[不属于]},其计算公...
【专利技术属性】
技术研发人员:任一支,高育苗,王冬,袁理锋,陈祚华,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。