基于提示学习的加密事件分类方法及系统技术方案

技术编号:38261994 阅读:14 留言:0更新日期:2023-07-27 10:21
本公开的实施例提供了一种基于提示学习的加密事件分类方法及系统。应用于加密事件分类领域;该方法包括:根据预设的加密事件映射字典,将加密事件中的每一个加密数字分别映射为汉字,得到带有汉字的加密文本;对带有汉字的加密文本进行分词,得到子词序列;将子词序列及其对应的掩码标签作为训练集对bert预训练模型进行重新训练,得到重新训练后的bert预训练模型;将加密事件及其对应的加密事件类别标签按预先定义的模板的形式进行组织;将按模板的形式进行组织的加密事件及其对应的加密事件类别标签作为训练集对所述重新训练后的bert预训练模型进行进一步训练,得到加密事件分类模型。以此方式,实现了对加密事件的分类,提高了加密事件分类的准确性。提高了加密事件分类的准确性。提高了加密事件分类的准确性。

【技术实现步骤摘要】
基于提示学习的加密事件分类方法及系统


[0001]本公开涉及自然语言处理研究领域,尤其涉及加密事件分类领域。

技术介绍

[0002]文本分类是自然语言处理(Natural Language Processing,NLP)的重要任务之一,随着互联网通讯的发展以及研究的进一步推进,预训练模型也被应用到自然语言处理的任务中,在文本分类任务上取得了较大的性能改进。
[0003]尽管传统的神经网络模型以及预训练语言模型已经较为成熟的应用到文本分类中,并取得了良好的分类效果。但是,对事件文本的描述进行加密后,很难使用常规的手段进行学习,并且,传统的神经网络模型在训练过程中通常需要大量的有标签或无标签的数据,且模型参数量较大,在对大量的数据进行训练时耗费的成本较高。因此,如何能够实现对加密事件进行准确的分类,成为实际应用中的一大挑战。

技术实现思路

[0004]本公开提供了一种基于提示学习的加密事件分类方法及系统。
[0005]根据本公开的第一方面,提供了一种基于提示学习的加密事件分类模型的训练方法,包括:
[0006]根据预设的加密事件映射字典,将加密事件中的每一个加密数字分别映射为汉字,得到带有汉字的加密文本;
[0007]对所述带有汉字的加密文本进行分词,得到子词序列;
[0008]将所述子词序列及其对应的掩码标签作为训练集对bert预训练模型进行重新训练,得到重新训练后的bert预训练模型;
[0009]将所述加密事件及其对应的加密事件类别标签按预先定义的模板T={|P
0:i
|,x,|P
i+1:m
|,y}的形式进行组织;其中,|P
0:i
|为模板T中第0至第i个提示词,|P
i+1:m
|为模板T中第i+1至第m个提示词,x为加密事件,y为加密事件类别;
[0010]将按所述模板的形式进行组织的加密事件及其对应的加密事件类别标签作为训练集对所述重新训练后的bert预训练模型进行进一步训练,得到加密事件分类模型。
[0011]在第一方面的一些实现方式中,所述掩码标签是通过对所述子词序列进行掩盖得到的。
[0012]在第一方面的一些实现方式中,所述对所述子词序列进行掩盖包括:
[0013]分别计算所述子词序列中的每一个子词与语料中的各个词的相似度,并将计算得到的各个相似度进行集合,得到相似度集合{p}
i

[0014]将所述相似度集合{p}
i
升序排序后第一四分位数记为阈值N,所述子词序列中的子词与语料中最相似词的相似度记为P
sim

[0015]分别将所述子词序列中的每一个子词与语料中对应的最相似词的相似度P
sim
与阈值N进行比较;
[0016]当P
sim
>N时,对对应的子词使用最相似词进行掩盖;
[0017]当P
sim
<=N时,对对应的子词进行随机替换掩盖。
[0018]在第一方面的一些实现方式中,所述方法还包括:
[0019]通过对比学习对所述重新预训练后的bert预训练模型进行进一步的特征表示训练。
[0020]在第一方面的一些实现方式中,所述将按所述模板的形式进行组织的加密事件及其对应的加密事件类别标签作为训练集对所述重新训练后的bert预训练模型进行进一步训练包括:
[0021]将按模板的形式进行组织的加密事件及其对应的加密事件类别标签通过所述重新训练后的bert预训练模型的embedding层进行映射,得到向量{e(|P
0:i
|),e(x),e(|P
i+1:m
|),e(y)};
[0022]将所述模板中的各个提示词视为伪字符,并对所述向量{e(|P
0:i
|),e(x),e(|P
i+1:m
|),e(y)}进行映射,得到向量{h0,...,h
i
,e(x),h
i+1
,...,h
m
,e(y)},其中,h
i
(0≤i<m)为提示向量;
[0023]通过所述重新训练后的bert预训练模型的Bi

LSTM以及损失函数对所述提示向量h
i
(0≤i<m)的表示进行优化。
[0024]根据本公开的第二方面,提供了一种基于提示学习的加密事件分类方法,该方法包括:
[0025]将加密事件按预先定义的模板T={|P
0:i
|,x,|P
i+1:m
|}的形式进行组织;其中,|P
0:i
|为模板T中第0至第i个提示词,|P
i+1:m
|为模板T中第i+1至第m个提示词,x为加密事件;
[0026]将按所述模板的形式进行组织的加密事件输入到根据本公开的第一方面的方法得到的加密事件分类模型中,输出对应的加密事件类别。
[0027]根据本公开的第三方面,提供了一种基于提示学习的加密事件分类模型的训练系统,该系统包括:
[0028]初始模块,用于根根据预设的加密事件映射字典,将加密事件中的每一个加密数字分别映射为汉字,得到带有汉字的加密文本;
[0029]分词模块,用于对所述带有汉字的加密文本进行分词,得到子词序列;
[0030]预训练模块,用于将所述子词序列及其对应的掩码标签作为训练集对bert预训练模型进行重新训练,得到重新训练后的bert预训练模型;
[0031]提示模块,用于将所述加密事件及其对应的加密事件类别标签按预先定义的模板T={|P
0:i
|,x,|P
i+1:m
|,y}的形式进行组织;其中,|P
0:i
|为模板T中第0至第i个提示词,|P
i+1:m
|为模板T中第i+1至第m个提示词,x为加密事件,y为加密事件类别;
[0032]训练模块,用于将按所述模板的形式进行组织的加密事件及其对应的加密事件类别标签作为训练集对所述重新训练后的bert预训练模型进行进一步训练,得到加密事件分类模型。
[0033]根据本公开的第四方面,提供了一种基于提示学习的加密事件分类系统,该系统包括:
[0034]输入模块,用于将加密事件按预先定义的模板T={|P
0:i
|,x,|P
i+1:m
|}的形式进行组织;其中,|P
0:i
|为模板T中第0至第i个提示词,|P
i+1:m
|为模板T中第i+1至第m个提示词,x
为加密事件;
[0035]输出模块,用于将按所述模板的形式进行组织的加密事件输入到根据本公开的第一方面的方法得到的加密事件分类模型中,输出对应的加密事件本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于提示学习的加密事件分类模型的训练方法,其特征在于,所述方法包括:根据预设的加密事件映射字典,将加密事件中的每一个加密数字分别映射为汉字,得到带有汉字的加密文本;对所述带有汉字的加密文本进行分词,得到子词序列;将所述子词序列及其对应的掩码标签作为训练集对bert预训练模型进行重新训练,得到重新训练后的bert预训练模型;将所述加密事件及其对应的加密事件类别标签按预先定义的模板T={|P
0:i
|,x,|P
i+1:m
|,y}的形式进行组织;其中,|P
0:i
|为模板T中第0至第i个提示词,|P
i+1:m
|为模板T中第i+1至第m个提示词,x为加密事件,y为加密事件类别;将按所述模板的形式进行组织的加密事件及其对应的加密事件类别标签作为训练集对所述重新训练后的bert预训练模型进行进一步训练,得到加密事件分类模型。2.根据权利要求1所述的方法,其特征在于,所述掩码标签是通过对所述子词序列进行掩盖得到的。3.根据权利要求2所述的方法,其特征在于,所述对所述子词序列进行掩盖包括:分别计算所述子词序列中的每一个子词与语料中的各个词的相似度,并将计算得到的各个相似度进行集合,得到相似度集合{p}
i
;将所述相似度集合{p}
i
升序排序后第一四分位数记为阈值N,所述子词序列中的子词与语料中最相似词的相似度记为P
sim
;分别将所述子词序列中的每一个子词与语料中对应的最相似词的相似度P
sim
与阈值N进行比较;当P
sim
>N时,对对应的子词使用最相似词进行掩盖;当P
sim
<=N时,对对应的子词进行随机替换掩盖。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:通过对比学习对所述重新预训练后的bert预训练模型进行进一步的特征表示训练。5.根据权利要求1所述的方法,其特征在于,所述将按所述模板的形式进行组织的加密事件及其对应的加密事件类别标签作为训练集对所述重新训练后的bert预训练模型进行进一步训练包括:将按模板的形式进行组织的加密事件及其对应的加密事件类别标签通过所述重新训练后的bert预训练模型的embedding层进行映射,得到向量{e(|P
0:i
|),e(x),e(|P
i+1:m
|),e(y)};将所述模板中的各个提示词视为伪字符,并对所述向量{e(|P
0:i
|),e(x),e(|P
i+1:m
|),e(y)}进行映射,得到向量{h0,...,h
i
,e(x),h
i+1
,...,h
m
,e(y)},其中,h
i
(0≤i<m)为提示向量;通过所述重新训练后的b...

【专利技术属性】
技术研发人员:邹游
申请(专利权)人:光控特斯联重庆信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1