一种区分网络安全数据命名实体识别难易度的方法技术

技术编号：43717718 阅读：3 留言：0更新日期：2024-12-20 12:47

本发明专利技术公开了一种区分网络安全数据命名实体识别难易度的方法，属于网络数据安全技术领域。解决了现有技术中传统的命名实体识别方法难以有效区分数据难易度的问题；本发明专利技术包括以下步骤：S1.构建基于规则的判别器，输入数据集，通过难度指标评估句子中实体的复杂性，得到总难度分数，对数据集中的数据进行分类，得到分类结果；S2.构建预训练模型，设置基于预训练模型的数据判别器对分类结果进行验证，得到最终的命名实体识别分类结果。本发明专利技术有效提升了识别数据集中具有挑战性的实例的整体准确性，能够区分数据难易度，增强了数据分类结果的鲁棒性，减轻了预训练模型特定的偏差，可以应用于网络安全数据处理。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种区分网络安全数据命名实体识别难易度的方法，属于网络数据安全。

技术介绍

1、命名实体识别(ner)是自然语言处理(nlp)中的一个重要任务，旨在从文本中识别出具有特定意义的实体，如人名、地名、组织机构名等，其在网络安全领域中的应用至关重要。

2、由于数据的复杂性，命名实体的识别难度可能存在显著差异，现有技术中，针对命名实体识别方法分析如下：(1)基于规则的方法，早期的ner系统多依赖于手工编写的规则和词典，规则基于语言学知识，比如词汇的词性、上下文等，但缺点在于规则编写和维护成本高，且难以适应新的实体和语言变化；(2)统计学习方法，例如，隐马尔可夫模型(hmm)和条件随机场(crf)通过训练数据自动学习实体的识别模式，不依赖于预定义的规则，具有更好的适应性和泛化能力，但识别效率较低；(3)深度学习方法中的transformer架构，其包括bert、gpt、roberta等模型，通过自注意力机制捕捉上下文关系，提高了ner的准确率，组建后的模型规模较大，识别效率较低。

3、综上所述，需要一种能够有效区分数据难易度、提升网络安全数据处理的准确性和效率的命名实体识别方法。

技术实现思路

1、在下文中给出了关于本专利技术的简要概述，以便提供关于本专利技术的某些方面的基本理解。应当理解，这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分，也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

2、鉴于此，为解决现有技术中传统的命名实体识别方法难以有效区分数据难易度的问题，本专利技术提供一种区分网络安全数据命名实体识别难易度的方法。

3、技术方案如下：一种区分网络安全数据命名实体识别难易度的方法，包括以下步骤：

4、s1.构建基于规则的判别器，输入数据集，通过难度指标评估句子中实体的复杂性，得到总难度分数，对数据集中的数据进行分类，得到分类结果；

5、s2.构建预训练模型，设置基于预训练模型的数据判别器对分类结果进行验证，得到最终的命名实体识别分类结果。

6、进一步地，所述s1中，难度指标包括实体长度难度、词汇罕见度和实体类型多样性；

7、进行实体长度难度评估，通过计算所有实体的总长度，并将其减去实体数量，得到实体长度复杂性评分dlength；

8、实体长度复杂性评分dlength表示为：

9、

10、其中，n为实体数量，li为第i个实体的长度；

11、进行词汇罕见度评估，将实体中每个词的出现频率低于指定阈值的词判定为罕见词，得到实体单词罕见度评分drarity；

12、实体单词罕见度评分drarity表示为：

13、

14、其中，r(wij)为第i个实体中第j个单词的罕见度，f(wij)为单词wij的出现频率，f为语料库中所有单词的总出现次数；

15、进行实体类型多样性难度评估，构建一个类型集合以汇总句子中所有实体的类型，并通过类型集合的大小即不同实体类型的数量，得到实体多样性难度评分；

16、实体多样性难度评分ddiversity表示为：

17、ddiversity＝|{ti|i＝1，2，...，n}|

18、其中，ti为第i个实体的类型，{ti}为所有实体类型的集合，||表示集合的大小；

19、对实体长度复杂性评分dlength、实体单词罕见度评分drarity和实体多样性难度评分ddiversity进行求和得到总难度分数，将总难度分数与预设的难度阈值进行比较，分类结果包括困难数据、简易数据和非实体数据，非实体数据即数据集中不存在实体的句子，若总难度分数大于预设的难度阈值，则将对应实体句子分类为困难数据，若总难度分数大于预设的难度阈值，则将对应实体句子分类为简易数据，若非实体数据与困难数据或简易数据相邻，则将与困难数据相邻的非实体数据合并为困难数据，将与简易数据相邻的非实体数据合并为简易数据，若非实体数据不与困难数据或简易数据相邻，则进行舍弃。

20、进一步地，所述s2中，具体包括以下步骤：

21、s21.给定输入序列，根据标注规则生成原始标注序列；

22、s22.采用微调后的bert模型、albert模型和mobilebert模型构建预训练模型，将输入序列作为预训练模型的输入，得到第i个单词的标签得分；

23、s23.根据第i个单词的标签得分，对预训练模型进行训练，得到最大化条件概率；

24、s24.根据最大化条件概率，在预训练模型训练过程中使用交叉熵损失函数衡量最大化条件概率对应的预测标签和原始标注序列的实际标签之间的差异，验证分类结果，整合得到最终的命名实体识别分类结果；

25、所述s21中，给定输入序列x，x＝(x1,x2,……,xn)，xi为第i个单词，i＝1,2,……,n，生成原始标注序列y，y＝(y1,y2,……yn)，yi为单词xi的实际标签；

26、所述s22中，预训练模型g由输入层、多层自注意力机制、线性层和输出层组成，将输入序列x输入到输入层，自动化生成三种嵌入，分别为单词嵌入ei，位置嵌入pi和分段嵌入di，将词嵌入ei，位置嵌入pi和分段嵌入di相加，得到单词的最终输入hi；

27、单词的最终输入hi表示为：

28、hi＝ei+pi+di

29、多层自注意力机制共l层，根据词的最终输入hi，多层自注意力机制每一层的输出表示为其中，l＝1,2,……,l；

30、每一层中的自注意力机制attention(q，k，v)表示为：

31、

32、其中，q为查询矩阵，k为键矩阵，v为值矩阵，wq为查询矩阵的可学习权重矩阵，wk为键矩阵的可学习权重矩阵，wv为值矩阵的可学习权重矩阵，dk为缩放因子；

33、在单词的最终输入hi通过多层自注意力机制之后，通过线性层将多层自注意力机制第l层的输出hi(l)映射到标签空间，得到第i个单词的标签得分si；

34、第i个单词的标签得分si表示为：

35、

36、其中，w为需要学习的第一参数，b为需要学习的第二参数；

37、所述s23中，预训练模型g训练过程的最大化条件概率表示为：

38、

39、其中，p(yi＝k|x)表示在给定输入序列x的情况下第i个单词被预测为标签k的概率，si,k表示通过线性层计算得到的第i个单词对应标签k的得分，exp为指数函数；

40、第i个单词xi对应标签k的得分si，k表示为：

41、

42、其中，bk为线性层的偏置项，其对应标签k的偏置；

43、所述s24中，第i个单词的交叉熵损失表示为：

44、

45、其中，为第i本文档来自技高网...

【技术保护点】

1.一种区分网络安全数据命名实体识别难易度的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种区分网络安全数据命名实体识别难易度的方法，其特征在于，所述S1中，难度指标包括实体长度难度、词汇罕见度和实体类型多样性；

3.根据权利要求2所述的一种区分网络安全数据命名实体识别难易度的方法，其特征在于，所述S2中，具体包括以下步骤：

【技术特征摘要】

1.一种区分网络安全数据命名实体识别难易度的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种区分网络安全数据命名实体识别难易度的方法，其特征在于，所述s1中...

【专利技术属性】
技术研发人员：武跃，叶麟，张云婷，朱若彬，魏子淇，张宏莉，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人