一种融合局部关键信息和预训练的文本分类方法技术

技术编号:38012110 阅读:8 留言:0更新日期:2023-06-30 10:33
本申请提供一种融合局部关键信息和预训练的文本分类方法,包括:选择与任务数据匹配程度最高的预训练模型作为第一预训练模型;使用任务数据对第一预训练模型进行进一步预训练,获得第二预训练模型,利用第二预训练模型从文本中抽取关键词序列,设置文本的局部属性共有n种,文本分类共有m种,将每种局部属性下的每种文本分类都作为一种局部关键类别,则能够得到n*m种局部关键类别;将通过第二预训练模型得到的全文表示向量和所有局部属性下的局部表示向量进行向量合并,得到文本的最终表示向量,对文本的最终表示向量进行关于任务数据的标注质量的评估,对评估通过后的文本的最终表示向量进行分类。本申请提高了分类效率和准确性。准确性。准确性。

【技术实现步骤摘要】
一种融合局部关键信息和预训练的文本分类方法


[0001]本申请涉及网络安全的漏洞分类领域,具体涉及一种融合局部关键信息和预训练的文本分类方法。

技术介绍

[0002]随着技术智能化的全面发展和数字产业化的深入推进,各种类型的网络软件不断涌现,系统软件加速向开源化、网络化、语义化的方向发展,系统中各类型的软件和大量交互数据导致安全漏洞数量持续递增,基于漏洞的网络安全事件层出不穷。如果不能对这些数量较大、分类较多的漏洞进行及时有效的修补,则可能导致漏洞被利用,增加被攻击的概率,从而产生很大的安全危害。由于在不同行业、不同网络、不同平台下的实际环境和需求各不相同,所以重点关注的漏洞分类是各不相同的,需要提取出漏洞报告中的关键信息,并结合具体的环境与场景,筛选出重点关注的漏洞。在对漏洞报告进行信息挖掘和分类的应用中,早期主要使用的是人工标注或者规则匹配的方法。随着自然语言处理(NLP)的蓬勃发展,各种不同的模型和方法都被应用到漏洞信息抽取中。例如专利《一种基于改进Bert模型的信息安全漏洞分类方法》(申请号:CN202111227292.9),该专利使用了预训练语言模型,但是预训练模型结构复杂、参数量大。对于漏洞信息分类任务而言,数据标注往往只是对最终的漏洞类型进行标注,而没有标注出文本中每个类型包含的局部类别的关键的信息,对细粒度信息没有掌握,这也就使得模型失去了对隐藏且重要信息源的学习,一旦模型出现分类错误,由于没有细粒度信息提供,也很难着手进行修改和纠正。另外,训练集的数据标注质量会极大的影响模型训练的效果,如果质量评估不过关,则需要重新进行标注,直至数据质量满足实际场景需求。由于逐个核验的成本过高以及小部分抽样并不具有代表性,可能带来幸存者偏差,所以需要配合高质量的数据质量评估过程。
[0003]因此,在漏洞信息分类中,如何对威胁情报场景中的漏洞报告进行深入学习来实现对核心信息的有效提取和如何对数据质量进行有效评估,是提高网络安全能力中一项急需解决的问题。

技术实现思路

[0004]为解决上述问题,本申请提供一种融合局部关键信息和预训练的文本分类方法,包括以下步骤:
[0005]S1,从能够获得文本的全文总体语义的预训练模型中,选择与任务数据匹配程度最高的预训练模型作为第一预训练模型;
[0006]所述任务数据包括文本和标注,所述标注包括文本所属的分类和代表文本关键信息的关键词序列;
[0007]S2,使用任务数据对第一预训练模型进行进一步预训练,获得第二预训练模型,所述第二预训练模型能够获得基于任务数据的代表文本的全文总体语义的全文表示向量;
[0008]S3,通过对第二预训练模型进行局部关键信息的抽取学习,利用第二预训练模型
从文本中抽取代表局部关键信息的关键词序列;
[0009]其中,设置文本的局部属性共有n种,文本分类共有m种,将每种局部属性下的每种文本分类都作为一种局部关键类别,则能够得到n*m种局部关键类别;
[0010]从文本中抽取属于同一局部关键类别的词序列作为该局部关键类别的关键词序列,将该局部关键类别中的所有关键词序列作为该局部关键类别的局部关键信息;
[0011]S4,对文本中的每个词进行词向量训练,得到代表每个词自身语义向量表示的词向量;
[0012]S5,根据局部关键类别包含的关键词序列中每个词的词向量,通过词向量平均计算获得该局部关键类别中每个关键词序列的平均向量,再对所有关键词序列的平均向量做平均计算,获得该局部关键类别的局部关键信息对应的局部关键向量;
[0013]S6,对同一局部属性下所有局部关键向量进行向量拼接,获得该局部属性的局部表示向量;
[0014]S7,将通过第二预训练模型得到的全文表示向量和所有局部属性下的局部表示向量进行向量合并,得到文本的最终表示向量;
[0015]S8,对文本的最终表示向量进行关于任务数据的标注质量的评估;
[0016]S9,对评估通过后的文本的最终表示向量进行分类。
[0017]其中,优选的,在步骤S1中,获得与任务数据匹配程度最高的预训练模型的方法包括以下步骤:
[0018]从基于本领域相关语料数据的若干候选预训练模型中,通过计算候选预训练模型与任务数据的匹配度分数score,选择score最高的候选预训练模型作为第一预训练模型;
[0019]其中,匹配度分数score=a1*coverage_rate+a2*diversity_rate;
[0020]其中,a1和a2均为超参数,coverage_rate为覆盖率指标,diversity_rate为丰富度指标;
[0021]覆盖率指标coverage_rate=1

YXL<UNK>/RW<C>;其中,YXL<UNK>为使用候选预训练模型对训练语料进行分词后出现未知词<UNK>的次数的总和,RW<C>使用候选预训练模型对任务数据进行分词后的每个词出现的次数的总和;
[0022]丰富度指标diversity_rate=YXL<QC>/RW<QC>;其中,YXL<QC>为候选预训练模型自带的词典中的总词数,RW<QC>为任务数据输入到候选预训练模型后分词去重后的总词数。
[0023]其中,优选的,在步骤S2中,通过训练第一预训练模型获得第二预训练模型的过程中,先对随机选取的关键词序列进行掩盖,再从剩余内容中随机选取部分字词进行掩盖,从而使得第二预训练模型能够预测被掩盖住的关键词序列和随机字词;其中,训练时的损失函数Loss=r1*Loss1+r2*Loss2;其中r1和r2为超参数,Loss1为以一定的掩码率随机选取部分字词,将选取的字词掩盖后的交叉熵损失,Loss2为随机选取关键词序列并对选取后的关键词序列进行掩盖的交叉熵损失。
[0024]其中,优选的,对第二训练模型进行局部关键信息的抽取学习的方法为:通过第二训练模型得到代表文本的全文总体语义的全文表示向量,将其作为BiLSTM

CRF模型的输入,利用LSTM从正序和反序两种角度抓取上下文信息,使用条件随机场CRF得到文本中每个词被标注的类别,获得属于同一局部关键类别的词序列作为该局部关键类别的关键词序
列,将该局部关键类别中的所有关键词序列作为该局部关键类别的局部关键信息。
[0025]其中,优选的,对文本分词后使用word2vec模型进行词向量的训练,得到文本中每个词的词向量。
[0026]其中,优选的,在步骤S5中,包括:设置第i种局部属性下的第j种文本分类对应的局部关键类别为Rij,设置在局部关键类别Rij共抽取到c个关键词序列,其中第z个关键词序列由p个词构成;
...

【技术保护点】

【技术特征摘要】
1.一种融合局部关键信息和预训练的文本分类方法,其特征在于,包括以下步骤:S1,从能够获得文本的全文总体语义的预训练模型中,选择与任务数据匹配程度最高的预训练模型作为第一预训练模型;所述任务数据包括文本和标注,所述标注包括文本所属的分类和代表文本关键信息的关键词序列;S2,使用任务数据对第一预训练模型进行进一步预训练,获得第二预训练模型,所述第二预训练模型能够获得基于任务数据的代表文本的全文总体语义的全文表示向量;S3,通过对第二预训练模型进行局部关键信息的抽取学习,利用第二预训练模型从文本中抽取代表局部关键信息的关键词序列;其中,设置文本的局部属性共有n种,文本分类共有m种,将每种局部属性下的每种文本分类都作为一种局部关键类别,则能够得到n*m种局部关键类别;从文本中抽取属于同一局部关键类别的词序列作为该局部关键类别的关键词序列,将该局部关键类别中的所有关键词序列作为该局部关键类别的局部关键信息;S4,对文本中的每个词进行词向量训练,得到代表每个词自身语义向量表示的词向量;S5,根据局部关键类别包含的关键词序列中每个词的词向量,通过词向量平均计算获得该局部关键类别中每个关键词序列的平均向量,再对所有关键词序列的平均向量做平均计算,获得该局部关键类别的局部关键信息对应的局部关键向量;S6,对同一局部属性下所有局部关键向量进行向量拼接,获得该局部属性的局部表示向量;S7,将通过第二预训练模型得到的全文表示向量和所有局部属性下的局部表示向量进行向量合并,得到文本的最终表示向量;S8,对文本的最终表示向量进行关于任务数据的标注质量的评估;S9,对评估通过后的文本的最终表示向量进行分类。2.如权利要求1所述的融合局部关键信息和预训练的文本分类方法,其特征在于,在步骤S1中,获得与任务数据匹配程度最高的预训练模型的方法包括以下步骤:从基于本领域相关语料数据的若干候选预训练模型中,通过计算候选预训练模型与任务数据的匹配度分数score,选择score最高的候选预训练模型作为第一预训练模型;其中,匹配度分数score=a1*coverage_rate+a2*diversity_rate;其中,a1和a2均为超参数,coverage_rate为覆盖率指标,diversity_rate为丰富度指标;覆盖率指标coverage_rate=1

YXL<UNK>/RW<C>;其中,YXL<UNK>为使用候选预训练模型对训练语料进行分词后出现未知词<UNK>的次数的总和,RW<C>使用候选预训练模型对任务数据进行分词后的每个词出现的次数的总和;丰富度指标diversity_rate=YXL<QC>/RW<QC>;其中,YXL<QC>为候选预训练模型自带的词典中的总词数,RW<QC>为任务数据输入到候选预训练模型后分词去重后的总词数。3.如权利要求1所述的融合局部关键信息和预训练的文本分类方法,其特征在于,在步骤S2中,通过训练第一预训练模型获得第二预训练模型的过程中,先对随机选取的关键词序列进行掩盖,再从剩余内容中随机选取部分字词进行掩盖,从而使得第二预训练模型能够预测被掩盖住的关键词序列和随机字词;其中,训练时的损失函数Loss=r1*Loss1+r2*
Loss2;其中r1和r2为超参数,Loss1为以一定的掩码率随机选取部分字词,将选取的字词掩盖后的交叉熵损失,Loss2为随机选取关键词...

【专利技术属性】
技术研发人员:刘洋卞超轶赵旺金柯方太辉邹亚杰
申请(专利权)人:启明星辰信息技术集团股份有限公司北京网御星云信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1