当前位置: 首页 > 专利查询>启明星辰信息技术集团股份有限公司北京网御星云信息技术有限公司专利>正文

一种融合局部关键信息和预训练的文本分类方法技术

技术编号：38012110 阅读：8 留言：0更新日期：2023-06-30 10:33

本申请提供一种融合局部关键信息和预训练的文本分类方法，包括：选择与任务数据匹配程度最高的预训练模型作为第一预训练模型；使用任务数据对第一预训练模型进行进一步预训练，获得第二预训练模型，利用第二预训练模型从文本中抽取关键词序列，设置文本的局部属性共有n种，文本分类共有m种，将每种局部属性下的每种文本分类都作为一种局部关键类别，则能够得到n*m种局部关键类别；将通过第二预训练模型得到的全文表示向量和所有局部属性下的局部表示向量进行向量合并，得到文本的最终表示向量，对文本的最终表示向量进行关于任务数据的标注质量的评估，对评估通过后的文本的最终表示向量进行分类。本申请提高了分类效率和准确性。准确性。准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种融合局部关键信息和预训练的文本分类方法

[0001]本申请涉及网络安全的漏洞分类领域，具体涉及一种融合局部关键信息和预训练的文本分类方法。

技术介绍

[0002]随着技术智能化的全面发展和数字产业化的深入推进，各种类型的网络软件不断涌现，系统软件加速向开源化、网络化、语义化的方向发展，系统中各类型的软件和大量交互数据导致安全漏洞数量持续递增，基于漏洞的网络安全事件层出不穷。如果不能对这些数量较大、分类较多的漏洞进行及时有效的修补，则可能导致漏洞被利用，增加被攻击的概率，从而产生很大的安全危害。由于在不同行业、不同网络、不同平台下的实际环境和需求各不相同，所以重点关注的漏洞分类是各不相同的，需要提取出漏洞报告中的关键信息，并结合具体的环境与场景，筛选出重点关注的漏洞。在对漏洞报告进行信息挖掘和分类的应用中，早期主要使用的是人工标注或者规则匹配的方法。随着自然语言处理(NLP)的蓬勃发展，各种不同的模型和方法都被应用到漏洞信息抽取中。例如专利《一种基于改进Bert模型的信息安全漏洞分类方法》(申请号：CN202111227292.9)，该专利使用了预训练语言模型，但是预训练模型结构复杂、参数量大。对于漏洞信息分类任务而言，数据标注往往只是对最终的漏洞类型进行标注，而没有标注出文本中每个类型包含的局部类别的关键的信息，对细粒度信息没有掌握，这也就使得模型失去了对隐藏且重要信息源的学习，一旦模型出现分类错误，由于没有细粒度信息提供，也很难着手进行修改和纠正。另外，训练集的数据标注质量会极大的影响模型训练的效果，如果质量评

【技术保护点】

【技术特征摘要】
1.一种融合局部关键信息和预训练的文本分类方法，其特征在于，包括以下步骤：S1，从能够获得文本的全文总体语义的预训练模型中，选择与任务数据匹配程度最高的预训练模型作为第一预训练模型；所述任务数据包括文本和标注，所述标注包括文本所属的分类和代表文本关键信息的关键词序列；S2，使用任务数据对第一预训练模型进行进一步预训练，获得第二预训练模型，所述第二预训练模型能够获得基于任务数据的代表文本的全文总体语义的全文表示向量；S3，通过对第二预训练模型进行局部关键信息的抽取学习，利用第二预训练模型从文本中抽取代表局部关键信息的关键词序列；其中，设置文本的局部属性共有n种，文本分类共有m种，将每种局部属性下的每种文本分类都作为一种局部关键类别，则能够得到n*m种局部关键类别；从文本中抽取属于同一局部关键类别的词序列作为该局部关键类别的关键词序列，将该局部关键类别中的所有关键词序列作为该局部关键类别的局部关键信息；S4，对文本中的每个词进行词向量训练，得到代表每个词自身语义向量表示的词向量；S5，根据局部关键类别包含的关键词序列中每个词的词向量，通过词向量平均计算获得该局部关键类别中每个关键词序列的平均向量，再对所有关键词序列的平均向量做平均计算，获得该局部关键类别的局部关键信息对应的局部关键向量；S6，对同一局部属性下所有局部关键向量进行向量拼接，获得该局部属性的局部表示向量；S7，将通过第二预训练模型得到的全文表示向量和所有局部属性下的局部表示向量进行向量合并，得到文本的最终表示向量；S8，对文本的最终表示向量进行关于任务数据的标注质量的评估；S9，对评估通过后的文本的最终表示向量进行分类。2.如权利要求1所述的融合局部关键信息和预训练的文本分类方法，其特征在于，在步骤S1中，获得与任务数据匹配程度最高的预训练模型的方法包括以下步骤：从基于本领域相关语料数据的若干候选预训练模型中，通过计算候选预训练模型与任务数据的匹配度分数score，选择score最高的候选预训练模型作为第一预训练模型；其中，匹配度分数score＝a1*coverage_rate+a2*diversity_rate；其中，a1和a2均为超参数，coverage_rate为覆盖率指标，diversity_rate为丰富度指标；覆盖率指标coverage_rate＝1
‑
YXL<UNK>/RW<C>；其中，YXL<UNK>为使用候选预训练模型对训练语料进行分词后出现未知词<UNK>的次数的总和，RW<C>使用候选预训练模型对任务数据进行分词后的每个词出现的次数的总和；丰富度指标diversity_rate＝YXL<QC>/RW<QC>；其中，YXL<QC>为候选预训练模型自带的词典中的总词数，RW<QC>为任务数据输入到候选预训练模型后分词去重后的总词数。3.如权利要求1所述的融合局部关键信息和预训练的文本分类方法，其特征在于，在步骤S2中，通过训练第一预训练模型获得第二预训练模型的过程中，先对随机选取的关键词序列进行掩盖，再从剩余内容中随机选取部分字词进行掩盖，从而使得第二预训练模型能够预测被掩盖住的关键词序列和随机字词；其中，训练时的损失函数Loss＝r1*Loss1+r2*
Loss2；其中r1和r2为超参数，Loss1为以一定的掩码率随机选取部分字词，将选取的字词掩盖后的交叉熵损失，Loss2为随机选取关键词...

【专利技术属性】
技术研发人员：刘洋，卞超轶，赵旺，金柯，方太辉，邹亚杰，
申请(专利权)人：启明星辰信息技术集团股份有限公司北京网御星云信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人