基于prompt的预训练模型计算机辅助定密方法及系统技术方案

技术编号:39006079 阅读:33 留言:0更新日期:2023-10-07 10:37
本发明专利技术公开了一种基于prompt的预训练模型计算机辅助定密方法,S1、构建已定密文件数据集,利用已解密且公开的文件,根据不同相关领域的定密细则,人工对选取的部分文件进行定密,即为初始数据源,再将初始数据源制作成模板的格式;S2、构建并训练定密依据关联模型,使用模板化处理后的数据集对预训练模型的参数进行调节,中文预训练模型采用BERT

【技术实现步骤摘要】
基于prompt的预训练模型计算机辅助定密方法及系统


[0001]本专利技术涉及计算机保密定密管理
,具体指一种基于prompt的预训练模型计算机辅助定密方法及系统。

技术介绍

[0002]随着办公网络技术的普及与发展,很多企事业单位已经实现了办公自动化,这在实现办公信息共享、提高企事业单位办公效率、节约办公成本的同时,也产生了企事业办公信息的泄露问题。作为保密工作基础与源头的定密工作也正在向信息化发展,因此,如何进行高效定密,在定密工作中引入信息化技术成为当前保密领域的迫切需求。
[0003]本专利技术所涉及的计算机辅助定密方法,是根据相关领域的定密依据,将密级划定为“绝密级”、“机密级”、“秘密级”以及“不涉密”,对可能会涉及到保密的各领域文件进行密级判定,从而能够使得各国家单位、企事业单位有效及时地对秘密信息进行保护。
[0004]目前,各级单位的定密主要是采取人工定密的方式,但这种密级界定方式取决于定密负责人的主观想法,很容易造成文件密级模糊,不准确,甚至错误定密的情况。另外,通过计算机来做辅助定密的方法,需要使用专家知识构建的定密规则库,通过不确定推理模型计算不同密级的概率,但这种方法依赖于高质量的、人工定义的定密规则库,导致实施成本很高,在定密领域很难办到。因此,如何通过计算机来辅助定密,同时减少对定密样本数量的依赖,成为当前利用信息化技术手段完成定密工作亟待解决的问题。

技术实现思路

[0005]本专利技术针对现有技术的不足,提出一种基于prompt的预训练模型计算机辅助定密方法及系统,根据相关领域的定密依据,将密级划定为“绝密级”、“机密级”、“秘密级”以及“不涉密”,对可能会涉及到保密的各领域文件进行密级判定,从而能够有效及时地对秘密信息进行保护。
[0006]为了解决上述技术问题,本专利技术的技术方案为:
[0007]本专利技术还提供一种基于prompt的预训练模型计算机辅助定密系统,系统整体框架由三个部分组成,数据集构建模块、定密依据关联模块和密级判定模块。数据集构建模块主要包含两个方面,一是对获取的初始数据源进行人工定密,即利用相关的定密依据对文件定密,得到文件的密级和定密依据。二是模板化处理,是根据定义的模板对已定密文本进行模板化处理,得到所用数据集。在后续的使用中,使用数据集对预训练模型进行微调。定密依据关联模块即利用构建的数据集对预训练模型微调,得到定密依据关联模型,使用定密依据关联模型对文件进行定密。密级判定模块主要包含两个方面,一是对拟定密文本进行模块化处理,将拟定密文本处理成定义的模板格式,二是使用定密依据关联模型对文本进行定密。
[0008]本专利技术还公开了一种基于prompt的预训练模型计算机辅助定密方法,具体包括以下步骤:
[0009]步骤(1)构建已定密文件数据集:
[0010]由于涉密数据难以获取,因此利用已解密的公开企事业单位文件,根据不同相关领域的定密细则,人工对选取的部分文件进行定密,即为初始数据源。再将初始数据源制作成模板的格式,文本模板为:
[0011][X_1]?[属于/不属于],[X_2][0012]其中[X_1]为已定密文件,[X_2]为定密依据,如果该替换后文本的“已定密文本

定密依据”对在初始数据源中出现过,则打上[属于]标签,否则打上[不属于]标签。即得到经过模板化处理的已定密文件数据集;
[0013]步骤(1)构建已定密文件数据集具体方法是:
[0014]步骤(1.1),已定密文件数据集由已解密的公开企事业单位文件经过定密、模板化处理后得到,已解密的公开企事业单位文件通过爬虫工具在互联网爬取。
[0015]步骤(1.2),选取部分的文件,根据相关领域定密依据进行人工定密,得到文件的密级;
[0016]步骤(1.3),根据模板格式对已定密文件进行模板化处理,设定的模板格式为:
[0017][X_1]?[属于/不属于],[X_2][0018]首先将[X_1]替换为已定密文本,其次将[属于/不属于]先用[MASK]标签替换。然后将[X_2]替换为定密依据,假设相关领域的定密依据有N条,对于一条已定密文本x,则会产生N条模板化后的文本x
prompt

[0019]步骤(1.4),将模板化后的文本x
prompt
打上标签y,如果该替换后文本的“定密文本

定密依据”对在已定密文件中出现过,则打上[属于]标签,否则打上[不属于]标签。处理完后将产生的N条样本{(x
prompt
,y)}存入模板化处理后的数据集D
template
中。
[0020]步骤(2)微调预训练模型具体方法是:
[0021]使用模板化处理后的数据集D
template
对预训练模型的参数进行微调。中文预训练模型采用BERT

wwm

ext,得到微调后的预训练模型,即为定密依据关联模型;
[0022]步骤(2.1),从模板化处理后的数据集D
template
中取出文本x
prompt
和标签y,由于x
prompt
中标签的位置由[MASK]代替,所以可以将其视为遮蔽掩码模型,使用预训练模型预测标签y∈{[属于],[不属于]},其计算公式如下,表示当前文本是属于/不属于的概率:
[0023][0024]上述公式中,Y={[属于],[不属于]},y

表示Y中的标签,Model(
·
)代表微调后的预训练模型,即定密依据关联模型。
[0025]步骤(2.2),模型对于输入样例{(x
prompt
,y)},最小化样例的损失函数,损失函数采用交叉熵损失函数,公式如下:
[0026][0027]上述公式中,C代表类别的数量,N代表样本的数量,y
ic
为符号函数,第i个样本为真实类别时取1否则取0。Model(y
c
)代表模型预测样本属于类别c的概率。
[0028]步骤(3)密级判定具体方法是:
[0029]步骤(3.1),对于拟定密文本,将其制作成模板的格式,模板的格式为:
[0030][X_1]?[属于/不属于],[X_2][0031][X_1]用于替换拟定密文本,[X_2]用于替换定密依据,[属于/不属于]标签先用[MASK]标签替换。假设相关领域的定密依据有N条,对于一条拟定密文本x

,则会产生N条替换后的文本x

prompt

[0032]步骤(3.2),将x

prompt
输入定密依据关联模型,通过模型来预测[MASK]标签是[属于/不属于]标签,具体的,定密依据关联模型根据定密依据索引来完成定密。
[0033]步骤(3.3),对于步骤(3.2)中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于prompt的预训练模型计算机辅助定密方法,其特征在于,包括如下步骤:S1、构建已定密文件数据集:利用已解密且公开的文件,根据不同相关领域的定密细则,人工对选取的部分文件进行定密,即为初始数据源,再将初始数据源制作成模板的格式,文本模板为:[X_1]?[属于/不属于],[X_2]其中[X_1]为已定密文件,[X_2]为定密依据,如果该替换后文本的“已定密文本

定密依据”对在初始数据源中出现过,则打上[属于]标签,否则打上[不属于]标签,即得到经过模板化处理的已定密文件数据集;S2、构建并训练定密依据关联模型:使用模板化处理后的数据集对预训练模型的参数进行调节,中文预训练模型采用BERT

wwm

ext,得到调节后的预训练模型,即为定密依据关联模型;S3、通过定密依据关联模型进行密级判定。2.根据权利要求1所述的基于prompt的预训练模型计算机辅助定密方法,其特征在于,所述步骤S1中,数据集的获取:已定密文件数据集由已解密的公开文件经过定密、模板化处理后得到,已解密的公开文件通过爬虫工具在互联网爬取。3.根据权利要求1所述的基于prompt的预训练模型计算机辅助定密方法,其特征在于,所述步骤S1中,模板化处理的具体方法如下:设定的模板格式为:首先将[X_1]替换为已定密文本,其次将[属于/不属于]先用[MASK]标签替换,然后将[X_2]替换为定密依据,假设相关领域的定密依据有N条,对于一条已定密文本x,则会产生N条模板化后的文本x
prompt
;将模板化后的文本x
prompt
打上标签y,如果该替换后文本的“定密文本

定密依据”对在已定密文件中出现过,则打上[属于]标签,否则打上[不属于]标签,处理完后将产生的N条样本{(x
prompt
,y)}存入模板化处理后的数据集D
template
中。4.根据权利要求3所述的基于prompt的预训练模型计算机辅助定密方法,其特征在于,所述步骤S2中,定密依据关联模型获取方法:从模板化处理后的数据集D
template
中取出文本x
prompt
和标签y,由于x
prompt
中标签的位置由[MASK]代替,所以可以将其视为遮蔽掩码模型,使用预训练模型预测标签y∈{[属于],[不属于]},其计算公...

【专利技术属性】
技术研发人员:任一支高育苗王冬袁理锋陈祚华
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1