基于prompt的预训练模型计算机辅助定密方法及系统技术方案

技术编号：39006079 阅读：33 留言：0更新日期：2023-10-07 10:37

本发明专利技术公开了一种基于prompt的预训练模型计算机辅助定密方法，S1、构建已定密文件数据集，利用已解密且公开的文件，根据不同相关领域的定密细则，人工对选取的部分文件进行定密，即为初始数据源，再将初始数据源制作成模板的格式；S2、构建并训练定密依据关联模型，使用模板化处理后的数据集对预训练模型的参数进行调节，中文预训练模型采用BERT

全部详细技术资料下载

【技术实现步骤摘要】
基于prompt的预训练模型计算机辅助定密方法及系统

[0001]本专利技术涉及计算机保密定密管理
，具体指一种基于prompt的预训练模型计算机辅助定密方法及系统。

技术介绍

[0002]随着办公网络技术的普及与发展，很多企事业单位已经实现了办公自动化,这在实现办公信息共享、提高企事业单位办公效率、节约办公成本的同时,也产生了企事业办公信息的泄露问题。作为保密工作基础与源头的定密工作也正在向信息化发展，因此，如何进行高效定密，在定密工作中引入信息化技术成为当前保密领域的迫切需求。
[0003]本专利技术所涉及的计算机辅助定密方法，是根据相关领域的定密依据，将密级划定为“绝密级”、“机密级”、“秘密级”以及“不涉密”，对可能会涉及到保密的各领域文件进行密级判定，从而能够使得各国家单位、企事业单位有效及时地对秘密信息进行保护。
[0004]目前，各级单位的定密主要是采取人工定密的方式，但这种密级界定方式取决于定密负责人的主观想法，很容易造成文件密级模糊，不准确，甚至错误定密的情况。另外，通过计算机来做辅助定密的方法，需要使用专家知识构建的定密规则库，通过不确定推理模型计算不同密级的概率，但这种方法依赖于高质量的、人工定义的定密规则库，导致实施成本很高，在定密领域很难办到。因此，如何通过计算机来辅助定密，同时减少对定密样本数量的依赖，成为当前利用信息化技术手段完成定密工作亟待解决的问题。

技术实现思路

[0005]本专利技术针对现有技术的不足，提出一种基于prompt的预训练模型计算...

【技术保护点】

【技术特征摘要】
1.一种基于prompt的预训练模型计算机辅助定密方法，其特征在于，包括如下步骤：S1、构建已定密文件数据集：利用已解密且公开的文件，根据不同相关领域的定密细则，人工对选取的部分文件进行定密，即为初始数据源，再将初始数据源制作成模板的格式，文本模板为：[X_1]？[属于/不属于]，[X_2]其中[X_1]为已定密文件，[X_2]为定密依据，如果该替换后文本的“已定密文本
‑
定密依据”对在初始数据源中出现过，则打上[属于]标签，否则打上[不属于]标签，即得到经过模板化处理的已定密文件数据集；S2、构建并训练定密依据关联模型：使用模板化处理后的数据集对预训练模型的参数进行调节，中文预训练模型采用BERT
‑
wwm
‑
ext，得到调节后的预训练模型，即为定密依据关联模型；S3、通过定密依据关联模型进行密级判定。2.根据权利要求1所述的基于prompt的预训练模型计算机辅助定密方法，其特征在于，所述步骤S1中，数据集的获取：已定密文件数据集由已解密的公开文件经过定密、模板化处理后得到，已解密的公开文件通过爬虫工具在互联网爬取。3.根据权利要求1所述的基于prompt的预训练模型计算机辅助定密方法，其特征在于，所述步骤S1中，模板化处理的具体方法如下：设定的模板格式为：首先将[X_1]替换为已定密文本，其次将[属于/不属于]先用[MASK]标签替换，然后将[X_2]替换为定密依据，假设相关领域的定密依据有N条，对于一条已定密文本x，则会产生N条模板化后的文本x
prompt
；将模板化后的文本x
prompt
打上标签y，如果该替换后文本的“定密文本
‑
定密依据”对在已定密文件中出现过，则打上[属于]标签，否则打上[不属于]标签，处理完后将产生的N条样本{(x
prompt
，y)}存入模板化处理后的数据集D
template
中。4.根据权利要求3所述的基于prompt的预训练模型计算机辅助定密方法，其特征在于，所述步骤S2中，定密依据关联模型获取方法：从模板化处理后的数据集D
template
中取出文本x
prompt
和标签y，由于x
prompt
中标签的位置由[MASK]代替，所以可以将其视为遮蔽掩码模型，使用预训练模型预测标签y∈{[属于]，[不属于]}，其计算公...

【专利技术属性】
技术研发人员：任一支，高育苗，王冬，袁理锋，陈祚华，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人