【技术实现步骤摘要】
一种命名实体识别方法、装置、电子设备及存储介质
[0001]本申请涉及网络安全
,具体而言,涉及一种命名实体识别方法、装置、电子设备及存储介质。
技术介绍
[0002]命名实体识别(Named Entity Recognition,NER)作为自然语言处理任务中的关键技术,在很多领域起着至关重要的作用,如知识图谱构建、机器翻译、信息检索、问答系统等。随着网络攻击事件的增多,互联网中产生了越来越多的网络安全数据,如博客、论坛、数据库等。这些数据中包含大量有价值的信息。NER技术可以从这些网络安全数据中自动抽取安全研究人员关注的网络安全实体,丰富网络安全知识,从中发现新的威胁、病毒、漏洞等,并及时采取有效措施。
[0003]现有的网络安全领域的命名实体识别方法,获得未标注数据时,没有同时考虑数据的不确定性和多样性,导致采样偏差,提高了数据标注成本。
技术实现思路
[0004]本申请实施例的目的在于提供一种命名实体识别方法、装置、电子设备及存储介质,利用主动学习策略,同时考虑数据的不确定性和多样性,从未标注数据中选择信息量丰富且全面的数据,从而以较低的标注样本实现较高的模型性能,解决了现有方法没有同时考虑数据的不确定性和多样性,导致采样偏差,提高了数据标注成本的问题。
[0005]本申请实施例提供了一种获得网络安全领域的非结构化文本;
[0006]将所述非结构化文本输入已训练的命名实体识别模型,得到所述非结构化文本中的网络安全实体;其中,所述命名实体识别模型是利用基于进化算法的 ...
【技术保护点】
【技术特征摘要】
1.一种命名实体识别方法,其特征在于,所述方法包括:获得网络安全领域的非结构化文本;将所述非结构化文本输入已训练的命名实体识别模型,得到所述非结构化文本中的网络安全实体;其中,所述命名实体识别模型是利用基于进化算法的主动学习从未标注数据池中选择最优未标注数据进行人工标注,得到的标注数据进行训练得到的。2.根据权利要求1所述的命名实体识别方法,其特征在于,利用基于进化算法的主动学习从未标注数据池中选择最优未标注数据进行人工标注,得到标注数据,用于进行命名实体识别模型训练,包括:将随机挑选的多条数据进行人工标注并将标注后的数据存至标注数据池中;利用所述标注数据池中的标注数据对命名实体识别模型进行训练;利用基于进化算法的主动学习从未标注数据池中选择最优未标注数据,并再次人工标注和存储至标注数据池中;重复对命名实体识别模型进行训练以及利用基于进化算法的主动学习进行最优未标注数据选择并进行人工标注的步骤,直至标注数据池中的标注数据的数量达到预设阈值;利用标注数据池中的标注数据对所述命名实体识别模型进行训练,得到最终的命名实体识别模型。3.根据权利要求2所述的命名实体识别方法,其特征在于,所述利用所述标注数据池中的标注数据对命名实体识别模型进行训练,包括:利用所述标注数据对Roberta
‑
BiLSTM
‑
CRF框架进行训练,以得到命名实体识别模型,其中,Roberta,用于将所述非结构化文本转化为语义向量;BiLSTM,用于对文本的上下文信息进行双向建模;CRF,用于学习标签之间的转移概率。4.根据权利要求1所述的命名实体识别方法,其特征在于,所述利用基于进化算法的主动学习从未标注数据池中选择最优未标注数据,包括:随机从未标注数据池中选择多个个体,构成初始化种群,所述初始化种群中个体的数量为POP,每个个体L包含n个句子:L={l1,l2,...,l
n
};对所述初始化种群中的每个个体进行实数编码;利用交叉算子在所述个体之间进行交叉操作,以生成新个体并放入所述初始化种群中;利用多项式突变算子对所述个体进行变异操作,以生成新个体并放入所述初始化种群中;对所述初始化种群中的每个个体进行适应度计算,并利用二元锦标赛选择法基于计算结果对所述初始化种群中的个体进行选择,选择POP个个体构成新种群;重复进行上述交叉操作、变异操作以及个体选择操作,对所述新种群进行更新,直至达到预设最大迭代次数;利用进化算法获得最终种群的Pareto最优解,若所述Pareto最优解有多个,则选出不确定分数和多样性分数之和最高的最优解;对所述最优解进行解码,映射到所述未标注数据池中对应的最优未标注数据。5.根据权利要求4所述的命名实体识别方法,其特征在于,所述对所述种群中的每个个体进行适应度计算,包...
【专利技术属性】
技术研发人员:李娇,
申请(专利权)人:北京天融信科技有限公司北京天融信软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。