一种告警信息标记方法、装置、介质和设备制造方法及图纸

技术编号:28037296 阅读:16 留言:0更新日期:2021-04-09 23:19
本发明专利技术涉及一种告警信息标记方法、装置、介质和设备。可以利用预先训练出的LDA模型,确定当前接收到的告警信息的类型对应的主题分布向量,并可以确定该告警信息对应的每个上下文文本(根据该告警信息以及其关联告警信息的类型形成的告警语句形成)对应的主题分布向量,进而可以通过主题分布向量之间的欧式距离值来度量当前接收到的告警信息的类型与其对应的每个上下文文本之间的语义偏离值。从而可以在某个欧式距离值较大时,认为当前接收到的告警信息的类型与该欧式距离值对应的上下文文本之间的语义偏离值较大,为当前接收到的告警信息生成对应的上下文异常标签,提示该告警信息针对某个上下文文本可能是高风险告警信息。

【技术实现步骤摘要】
一种告警信息标记方法、装置、介质和设备
本专利技术涉及网络安全
,特别涉及一种告警信息标记方法、装置、介质和设备。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。安全运营中心如今面临的一大挑战,是在有限的人力及成本资源限制下,实现网络安全管理。而针对大量的告警信息进行处理,远远超过安全运营人员的人工处理能力,会造成严重的“告警疲劳”现象,不仅不能有效地维护网络安全,反而会导致安全运营人员对告警信息的不信任的产生,进而导致网络安全性的降低。为了减少“告警疲劳”现象的产生,现有方案往往通过规则驱动的静态分级、经验驱动的黑白名单或者初级的数据频率统计方案等,对告警信息进行分类分级,以区分大量告警信息中的高风险告警信息(可以理解为高风险告警信息对应的攻击对系统安全性的影响较高的告警信息)和低风险告警信息(可以理解为对应的攻击对系统安全性的影响较低的告警信息),实现高风险告警信息的发现,使得安全运营人员可以针对性地对高风险告警信息进行有效处理。但是目前从告警信息中发现高风险告警信息的方案,往往无法及时并准确地识别出高风险告警信息,进而导致错失最佳的威胁捕获时机,为企业、组织的数据资产、IT系统的稳定运行埋下巨大隐患。
技术实现思路
本专利技术实施例提供一种告警信息标记方法、装置、介质和设备,用于解决从告警信息中发现高风险告警信息的及时性和准确性较差的问题。第一方面,本专利技术提供了一种告警信息标记方法,所述方法包括:若确定当前接收到的第一告警信息的类型,属于预先训练出的潜在狄利克雷分布LDA模型训练用的告警信息的类型中的一个,确定接收到所述第一告警信息之前的设定时长内接收到的第二告警信息;根据所述第一告警信息以及所述第二告警信息,确定所述第一告警信息所对应的至少一个上下文文本,利用所述LDA模型确定每个上下文文本作为文档所对应的主题分布向量;确定所述第一告警信息的类型作为单词针对所述LDA模型所对应的主题分布向量,并分别确定该主题分布向量与每个上下文文本作为文档所对应的主题分布向量之间的欧式距离值;若至少一个欧式距离值大于设定值,为所述第一告警信息生成每个大于设定值的欧式距离值对应的上下文异常标签。可选的,所述方法还包括:针对每个大于设定值的欧式距离值,根据所述LDA模型的预先人工标注结果,获取指定主题所对应的语义描述,该指定主题为该欧式距离值对应的上下文文本对应的主题;并,输出该欧式距离值,该欧式距离值对应的上下文异常标签以及该欧式距离值对应的指定主题对应的语义描述;其中,一个上下文文本对应的主题根据该上下文文本作为文档所对应的主题分布向量确定。可选的,所述至少一个上下文文本包括源上下文文本,目的上下文文本以及源-目的上下文文本;所述源上下文文本根据源互联网协议地址与所述第一告警信息相同的告警语句形成;所述目的上下文文本根据目的互联网协议地址与所述第一告警信息相同的告警语句形成;所述源-目的上下文文本根据源互联网协议地址以及目的互联网协议地址均与所述第一告警信息相同的告警语句形成。可选的,利用所述LDA模型确定每个上下文文本作为文档所对应的主题分布向量,包括:针对每个上下文文本,确定该上下文文本对应的向量,根据该向量,利用所述LDA模型确定该上下文文本作为文档所对应的主题分布向量;其中,一个上下文文本对应的向量长度为所述LDA模型训练用的告警信息的类型的数量,向量值为按照词频逆文本频率指数TF-IDF模型获得的所述LDA模型训练用的每个类型的告警信息在该上下文文本中的权重值。可选的,根据所述第一告警信息以及所述第二告警信息,确定所述第一告警信息所对应的至少一个上下文文本之后,利用所述LDA模型确定每个上下文文本作为文档所对应的主题分布向量之前,所述方法还包括:若确定出的上下文文本中至少一个上下文文本的长度小于阈值,增大所述设定时长,并返回执行确定接收到所述第一告警信息之前的设定时长内接收到的第二告警信息。可选的,所述方法还包括:若不属于预先训练出的LDA模型训练用的告警信息的类型中的一个的告警信息数量达到门限值,提示所述LDA模型需要重新进行训练。可选的,所述方法还包括:根据所述第一告警信息以及所述第二告警信息,针对每条所述第二告警信息,确定该第二告警信息所对应的至少一个上下文文本,利用所述LDA模型确定每个上下文文本作为文档所对应的主题分布向量;确定该第二告警信息的类型作为单词针对所述LDA模型所对应的主题分布向量,并分别确定该主题分布向量与每个上下文文本作为文档所对应的主题分布向量之间的欧式距离值;若至少一个欧式距离值大于设定值,为该第二告警信息生成每个大于设定值的欧式距离值对应的上下文异常标签;其中,每条第二告警信息所对应的每个上下文文本,根据所述第一告警信息以及每条第二告警信息对应的告警语句形成。第二方面,本专利技术还提供了一种告警信息标记装置,所述装置包括:分析模块,用于若确定当前接收到的第一告警信息的类型,属于预先训练出的潜在狄利克雷分布LDA模型训练用的告警信息的类型中的一个,确定接收到所述第一告警信息之前的设定时长内接收到的第二告警信息;根据所述第一告警信息以及所述第二告警信息,确定所述第一告警信息所对应的至少一个上下文文本,利用所述LDA模型确定每个上下文文本作为文档所对应的主题分布向量;确定所述第一告警信息的类型作为单词针对所述LDA模型所对应的主题分布向量,并分别确定该主题分布向量与每个上下文文本作为文档所对应的主题分布向量之间的欧式距离值;标记模块,用于若至少一个欧式距离值大于设定值,为所述第一告警信息生成每个大于设定值的欧式距离值对应的上下文异常标签。第三方面,本专利技术还提供了一种非易失性计算机存储介质,所述计算机存储介质存储有可执行程序,该可执行程序被处理器执行实现如上所述的方法。第四方面,本专利技术还提供了一种区块链数据处理设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器,所述通信接口,所述存储器通过所述通信总线完成相互间的通信;所述存储器,用于存放计算机程序;所述处理器,用于执行所述存储器上所存储的程序时,实现如上所述的方法步骤。根据本专利技术实施例提供的方案,可以利用预先训练出的LDA模型,确定当前接收到的告警信息的类型对应的主题分布向量,并可以确定该告警信息对应的每个上下文文本(根据该告警信息以及其关联告警信息的类型形成的告警语句形成)对应的主题分布向量,进而可以通过主题分布向量之间的欧式距离值来度量当前接收到的告警信息的类型与其对应的每个上下文文本之间的语义偏离值。从而可以在某个欧式距离值较大时,认为当前接收到的告警信息的类型与该欧式距离值对应的上下文文本之间的语义偏离值较大,为当前接收到的告警信息生成对应的上下文异常标签,提示该告警信息针对某个上下文文本可能是高本文档来自技高网...

【技术保护点】
1.一种告警信息标记方法,其特征在于,所述方法包括:/n若确定当前接收到的第一告警信息的类型,属于预先训练出的潜在狄利克雷分布LDA模型训练用的告警信息的类型中的一个,确定接收到所述第一告警信息之前的设定时长内接收到的第二告警信息;/n根据所述第一告警信息以及所述第二告警信息,确定所述第一告警信息所对应的至少一个上下文文本,利用所述LDA模型确定每个上下文文本作为文档所对应的主题分布向量;/n确定所述第一告警信息的类型作为单词针对所述LDA模型所对应的主题分布向量,并分别确定该主题分布向量与每个上下文文本作为文档所对应的主题分布向量之间的欧式距离值;/n若至少一个欧式距离值大于设定值,为所述第一告警信息生成每个大于设定值的欧式距离值对应的上下文异常标签。/n

【技术特征摘要】
1.一种告警信息标记方法,其特征在于,所述方法包括:
若确定当前接收到的第一告警信息的类型,属于预先训练出的潜在狄利克雷分布LDA模型训练用的告警信息的类型中的一个,确定接收到所述第一告警信息之前的设定时长内接收到的第二告警信息;
根据所述第一告警信息以及所述第二告警信息,确定所述第一告警信息所对应的至少一个上下文文本,利用所述LDA模型确定每个上下文文本作为文档所对应的主题分布向量;
确定所述第一告警信息的类型作为单词针对所述LDA模型所对应的主题分布向量,并分别确定该主题分布向量与每个上下文文本作为文档所对应的主题分布向量之间的欧式距离值;
若至少一个欧式距离值大于设定值,为所述第一告警信息生成每个大于设定值的欧式距离值对应的上下文异常标签。


2.如权利要求1所述的方法,其特征在于,所述方法还包括:针对每个大于设定值的欧式距离值,根据所述LDA模型的预先人工标注结果,获取指定主题所对应的语义描述,该指定主题为该欧式距离值对应的上下文文本对应的主题;并,
输出该欧式距离值,该欧式距离值对应的上下文异常标签以及该欧式距离值对应的指定主题对应的语义描述;
其中,一个上下文文本对应的主题根据该上下文文本作为文档所对应的主题分布向量确定。


3.如权利要求1所述的方法,其特征在于,所述至少一个上下文文本包括源上下文文本,目的上下文文本以及源-目的上下文文本;
所述源上下文文本根据源互联网协议地址与所述第一告警信息相同的告警语句形成;
所述目的上下文文本根据目的互联网协议地址与所述第一告警信息相同的告警语句形成;
所述源-目的上下文文本根据源互联网协议地址以及目的互联网协议地址均与所述第一告警信息相同的告警语句形成。


4.如权利要求1所述的方法,其特征在于,利用所述LDA模型确定每个上下文文本作为文档所对应的主题分布向量,包括:
针对每个上下文文本,确定该上下文文本对应的向量,根据该向量,利用所述LDA模型确定该上下文文本作为文档所对应的主题分布向量;
其中,一个上下文文本对应的向量长度为所述LDA模型训练用的告警信息的类型的数量,向量值为按照词频逆文本频率指数TF-IDF模型获得的所述LDA模型训练用的每个类型的告警信息在该上下文文本中的权重值。


5.如权利要求1所述的方法,其特征在于,根据所述第一告警信息以及所述第二告警信息,确定所述第一告警信息所对应的至少一个上下文文本之后,利用所述LDA模型确定每个上下文文本作为文档所对应的主题分布向量之前,所述方...

【专利技术属性】
技术研发人员:张润滋刘文懋陈磊薛见新吴复迪
申请(专利权)人:绿盟科技集团股份有限公司北京神州绿盟科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1