一种基于神经网络加强的违规操作实时检测装置制造方法及图纸

技术编号:35452769 阅读:26 留言:0更新日期:2022-11-03 12:08
本发明专利技术公开了一种基于神经网络加强的违规操作实时检测装置,包括以下几个阶段,数据预处理阶段,模型训练阶段,模型检测阶段。本发明专利技术其数据特征提取能力大大提升,做到几乎无损的数据转换,我们使用命令模板作为shell命令的特征表示,并使用One

【技术实现步骤摘要】
一种基于神经网络加强的违规操作实时检测装置


[0001]本专利技术涉及神经网络领域,具体是指一种基于神经网络加强的违规操作实时检测装置。

技术介绍

[0002]现有技术DTMC的主要问题出现在三个方面:数据特征提取、数据模型拟合、阈值设置。
[0003](1)数据特征提取方面:DTMC算法通过分窗和概率归并的方式从原始数据确定状态,将原始的shell命令序列转换表征为状态序列。这种方式会丢失数据中大量的关键信息,导致后续基于状态序列的模型可获取的数据关键信息大大减少,导致大量的误报和错报。
[0004](2)模型拟合方面:DTMC是一阶马尔可夫链模型,表征能力有限,并不能很好的学习到原始数据中的关键特性。
[0005](3)阈值设置方面:现有技术使用出现概率的方式来计算一串shell命令的异常分数,需要人工给每一个训练的模型指定合理的阈值,耗时耗力且无法指定一个很好的阈值,导致漏报误报。
[0006]基于上述多个原因,一种基于神经网络加强的违规操作实时检测装置成为整个社会亟待解决的技术问题。

技术实现思路

[0007]为解决上述技术问题,本专利技术提供的技术方案为:一种基于神经网络加强的违规操作实时检测装置,包括以下几个阶段,
[0008](1)数据预处理阶段,在模型处理阶段,可以自定义使用数据的窗长和状态的数量,使用命令模板来表征原始shell命令;
[0009](2)模型训练阶段,shell命令是由操作人员输入的序列数据,且命令之间存在较强的依赖关系,即操作人员当前输入什么shell命令是受其已经输入的shell数据影响,基于这个数据特征,我们将异常检测问题转换为预测问题,即给定一定长度的shell命令序列即命令模板序列,预测下一个shell命令或命令体是什么的问题,如果实际的命令不在预测的前k个命令中则触发异常,接着构建预测模型;
[0010](3)模型检测阶段,首先用数据处理阶段提到的方法将原始的检测shell命令序列转换为命令模板序列,然后载入训练好的预测模型并输入命令模板序列来预测下一个命令体的概率分布,如果真实的下一个命令体不在预测的按照概率排序的topk个中则触发异常,在此阶段我们使用top

k算法来判断检测的命令序列串是否为高危操作。
[0011]进一步地,其中一条shell命令有命令体、参数、变量三个部分组成(rm

rf./result,其中rm是命令体,

rf是参数,./result是变量);命令模式即将命令中的变量部分替换为通配符<*>(e.g.rm

rf<*>);我们使用层次聚类的方式来自动取命令模板;然后以
NLP领域的One

hot Embedding编码方式将命令模板转换为数值特征向量。
[0012]进一步地,所述步骤(2)中构建预测模型,其为使用神经网络模型中的LSTM和CNN两种模型结果来构建这样的预测模型。预测模型的输入是一定长度的命令模板序列,输出是下一个命令体是什么的概率分布;基于预测模型的输入输出我们可以很容易的从原始数据构建出符合要求的训练数据,然后使用训练数据拟合预测模型。
[0013]专利技术与现有技术相比的优点在于:
[0014]1)数据特征提取能力大大提升,做到几乎无损的数据转换,我们使用命令模板作为shell命令的特征表示,并使用One

hot Embedding的方式转换为数值特征向量的特征提取方法只丢失了原始数据中变量部分的信息,而这部分信息在异常检测场景中并不是关键信息。(注:因为shell命令是非结构化的文本数据所以一定需要做特数据转换,转换为机器学习模型可以处理的数值特征。
[0015]2)将异常检测问题转换为预测问题,提升了异常检测的可解释性。
[0016]3)使得模型对数据种类和数据长度的容忍度提升,提高了关键信息的利用率,使得结果更加准确。准确性和泛化性能高,结合LSTM和CNN模型来构建预测模型,并使用top

k的方式来检测异常,极大的提升了异常的召回率和检测告警的精确性。
[0017]4)提升易用性,top

k算法的k值设定具有就较强的泛化性,使用默认的k值(10)既能达到很好的效果,不需要太多人工的参与。
附图说明
[0018]图1为本专利技术一种基于神经网络加强的违规操作实时检测装置的模块示意图。
具体实施方式
[0019]下面结合附图对本专利技术做进一步的详细说明。
[0020]结合附图,对本专利技术进行详细介绍。
[0021]本专利技术在具体实施时提供了一种基于神经网络加强的违规操作实时检测装置,包括以下几个阶段,
[0022](1)数据预处理阶段,在模型处理阶段,可以自定义使用数据的窗长和状态的数量,使用命令模板来表征原始shell命令;数据处理阶段主要更改了数据表现的结构和形式,方便模型构建模块中的神经网络更好的处理数据。其中,自定义使得模型能更好的体现用户的行为链并更好适应复杂情况。
[0023](2)模型训练阶段,shell命令是由操作人员输入的序列数据,且命令之间存在较强的依赖关系,即操作人员当前输入什么shell命令是受其已经输入的shell数据影响,基于这个数据特征,我们将异常检测问题转换为预测问题,即给定一定长度的shell命令序列即命令模板序列,预测下一个shell命令或命令体是什么的问题,如果实际的命令不在预测的前k个命令中则触发异常,接着构建预测模型;
[0024](3)模型检测阶段,首先用数据处理阶段提到的方法将原始的检测shell命令序列转换为命令模板序列,然后载入训练好的预测模型并输入命令模板序列来预测下一个命令体的概率分布,如果真实的下一个命令体不在预测的按照概率排序的topk个中则触发异常,在此阶段我们使用top

k算法来判断检测的命令序列串是否为高危操作。
[0025]作为本专利技术的进一步阐述,其中一条shell命令有命令体、参数、变量三个部分组成(rm

rf./result,其中rm是命令体,

rf是参数,./result是变量);命令模式即将命令中的变量部分替换为通配符<*>(e.g.rm

rf<*>);我们使用层次聚类的方式来自动取命令模板;然后以NLP领域的One

hot Embedding编码方式将命令模板转换为数值特征向量。
[0026]作为本专利技术的进一步阐述,所述步骤(2)中构建预测模型,其为使用神经网络模型中的LSTM和CNN两种模型结果来构建这样的预测模型。预测模型的输入是一定长度的命令模板序列,输出是下一个命令体是什么的概率分布;基于预测模型的输入输出我们可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于神经网络加强的违规操作实时检测装置,其特征在于:包括以下几个阶段,(1)数据预处理阶段,在模型处理阶段,可以自定义使用数据的窗长和状态的数量,使用命令模板来表征原始shell命令;(2)模型训练阶段,shell命令是由操作人员输入的序列数据,且命令之间存在较强的依赖关系,即操作人员当前输入什么shell命令是受其已经输入的shell数据影响,基于这个数据特征,我们将异常检测问题转换为预测问题,即给定一定长度的shell命令序列即命令模板序列,预测下一个shell命令或命令体是什么的问题,如果实际的命令不在预测的前k个命令中则触发异常,接着构建预测模型;(3)模型检测阶段,首先用数据处理阶段提到的方法将原始的检测shell命令序列转换为命令模板序列,然后载入训练好的预测模型并输入命令模板序列来预测下一个命令体的概率分布,如果真实的下一个命令体不在预测的按照概率排序的topk个中则触发异常,在此阶段我们使用top

k算法来判断检测的命令序列串是否为高危操作。2.根据权利要求1所述的一种基于神...

【专利技术属性】
技术研发人员:熊亚军马萌沈国鹏苗贺朱品燕
申请(专利权)人:北京云集智造科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1