一种面向高危用户指令的实时异常检测方法及装置制造方法及图纸

技术编号:35023688 阅读:26 留言:0更新日期:2022-09-24 22:54
本发明专利技术提供了一种面向高危用户指令的实时异常检测方法及装置,所述方法包括:从生产环境采集一用户使用的指令数据,并获取系统错误日志及所述指令数据的自动化测试结果;根据所述指令数据的指令子参数、系统错误日志、自动化测试结果,计算所述指令数据的第一高危分数;基于所述指令数据的词向量,计算所述指令数据的第二高危分数;根据所述第一高危分数与所述第二高危分数,获取所述指令数据的异常检测结果本发明专利技术降低流数据处理系统的数据接入难度,提高整个数据处理系统的吞吐量。本发明专利技术通过指令数据以及相应的系统错误日志数量、自动化测试结果等多种因素,降低了传统异常指令检测的运维难度,提高了异常指令检测速度和精度。度。度。

【技术实现步骤摘要】
一种面向高危用户指令的实时异常检测方法及装置


[0001]本专利技术属于网络安全领域,具体提出本专利技术设计了一种面向高危用户指令的实时异常检测方法及装置。

技术介绍

[0002]运维保障过程中,为了便捷地进行运维管理,运维人员通常拥有服务器的超级权限,能对服务器进行大量复杂操作。这样的行为存在着大量隐患,比如停止了正在运行的进程,或者因为失误操作删除服务器重要文件数据,类似事件数不胜数。2014年美国CERT发布的网络安全调查显示28%的内部攻击却造成了46%的损失。
[0003]针对以上问题,2011年美国国防部提出了名为ADAMS(Anomaly Detection at Multiple Scales)的军方内部威胁检测系统,从系统架构、检测实现等多方面提出了具体要求,并在实际的企业数据上进行了运行测试,取得了较好的效果。
[0004]随着异常指令造成的危害不断扩大,异常指令检测研究也在逐渐系统化,对异常指令进行实时拦截实时控制也逐渐成为严重问题。而面对安全中心保障和运维体系,已有异常指令数据集和异常指令检测方法作用有限,其主要存在以下限制:
[0005](1)现存的指令检测数据集大多为2000年以前的数据集,数据来源过老,无法满足当前不断发展的基本指令种类和指令数量;
[0006](2)现存的指令检测方法,无论是基于传统机器学习的检测方法还是深度学习的检测方法,其大多无法满足不断增长的指令检测数量或者指令检测精确度,或无法满足工业界对于实时指令检测需求;
[0007](3)目前工业界还没有一个能够基于机器学习的智能异常指令检测工具,只有传统的基于自定义的检测系统,检测难度高,且无法能够准确检测特殊指令或特殊脚本指令。同时多元的业务系统增加了传统访问控制等系统安全机制的实际应用难度,而已有的内部威胁检测系统更多偏向于实验环境,缺乏现实可用版本;
[0008](4)目前在学术界和工业界,危害指令定义,危害指令的危害程度区分也是当前悬而未决的问题。当前的数据集只有二分类数据集,没有将各种指令进行危害程度划分,导致危害指令分类不准确,非危害指令和危害指令之间的关系也没有进行准确的定义。
[0009]因此,有必要系统分析中心业务系统的内部威胁,提取内部威胁核心特征,从而设计新型异常指令检测原型系统,如图1所示。在保证准确度的同时也要兼具异常检测速度来保证实时检测。
[0010]现有技术的方案如下所示:
[0011]1.以自定义规则为主要方式的指令过滤模型。这类模型主要利用运维人员或系统自行添加或删除各类指令运行规则,如不能使用哪些指令名,例如rm、vim等。这样的指令过滤模型对运维人员要求操作高,需要运维人员利用经验,提前将不能使用或使用危险的指令输入到系统中让系统进行过滤,提高系统准确度。
[0012]2.以模拟沙盒为主要方式的指令过滤模型。这类模型着眼于创建一个指令沙盒系
统,这个沙盒系统和外部系统的环境保持一致,通过将用户输入的每个指令输入到这个沙盒系统中进行模拟运行,查看这个指令对沙盒系统是否存在信息破坏、信息窃取或者系统崩溃等情况来判断指令的安全程度。这个模型将指令评分交予沙盒系统进行判断,并且这样的系统可以对几乎所有指令进行判断。
[0013]3.以机器学习为基础的文本分析模型。这类模型将指令看作是一行或多行文本,通过将这样的文本进行分析来进行评分并判断其危险程度。2003年,Maxion提出了一种基于朴素贝叶斯的异常指令检测方法,他基于SEA数据集,将SEA数据中每位用户的指令按照100个指令为一个指令集进行分析,得到了初步的优质结果(TPR=66.2%,FPR=1.5%)。Oka等人使用了ECM去模拟一位正常用户的指令使用顺序,再模拟一位使用了异常指令的用户的指令使用顺序,最后将两者进行比较得到指令块是否为异常指令块。相比之下,Kim和Cha提出了一种更轻量级的方法,通过引入公共命令的概念作为特征,并训练支持向量机(SVM)和投票引擎作为异常指令的分类器。Lane和Brodley使用了两种方法来检测异常指令:隐马尔可夫模型(HMM)和基于实例的学习。Huang和Stamp利用了用户指令的位置信息,提出了一种轮廓HMM(PHMM)方法以进行异常指令检测。Kholidy等人提出了数据驱动的半全局对齐(DDSGA)方法。在训练阶段,计算给定用户的序列比对参数。在检测阶段,通过发现几个错位序列来表明用户异常指令活动。Schonlau等人采用贝叶斯单步马尔可夫链方法,在检测SEA

Full异常指令检测时,TPR率为69.3%,FPR率为6.7%。
[0014]4.以深度学习为基础的文本分析模型。这类模型利用深度学习方法,通过对指令块(100行指令)进行检测,深度分析并挖掘异常指令。Elmasry等人对各种DL模型进行了大量实验,包括深度神经网络(DNN)、CNN和长

短期记忆(LSTM)。利用CNN作为文本分类模型,将伪装检测问题作为文本分类任务。Meng等人提出了一种基于核PCA和LSTM

RNN的方法,将数据预处理、特征提取和攻击检测集成到端到端检测系统中。Abdulhammed等采用变分自译码器和主成分分析进行特征降维。随后,利用这些特征,他们通过调查各种模型进行分类,如RF、贝叶斯网络、线性鉴别分析和二次鉴别分析。Kim等人应用了LSTM体系结构,并使用KDD Cup 1999数据集对模型进行了训练。他们通过经验验证了DL方法对IDS是有效的。Yin等人使用RNN并开发了RNN

IDS模型,该模型在二分类和多分类方面都优于其他ML模型,包括J48、人工神经网络、随机森林(RF)和SVM。对于NSL

KDD数据集,他们的系统大大优于使用支持向量机、神经网络和贝叶斯方法的几种攻击检测策略。Le等人探索了一个包含多个组件的模型,包括RNN、LSTM和门控循环单元,并讨论了哪个组件给出了最好的结果。

技术实现思路

[0015]为了降低传统异常指令检测的运维难度,同时提高异常指令检测速度和精度,本专利技术提出了一种面向高危用户指令的实时异常检测方法及装置,可以应用于各操作系统的实时指令检测中。
[0016]本专利技术的
技术实现思路
包括:
[0017]一种面向高危用户指令的实时异常检测方法,适用于运维用户,所述方法的步骤包括:
[0018]从生产环境采集一用户使用的指令数据,并获取系统错误日志及所述指令数据的自动化测试结果;根据所述指令数据的指令子参数、系统错误日志、自动化测试结果,计算
所述指令数据的第一高危分数;
[0019]基于所述指令数据的词向量,计算所述指令数据的第二高危分数;
[0020]根据所述第一高危分数与所述第二高危分数,获取所述指令数据的异常检测结果。
[0021]进一步地,所述从生产环境采集一用户使用的指令数据,包括:
[0022]基于所述运维用户的需求,修改用户指本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向高危用户指令的实时异常检测方法,适用于运维用户,所述方法的步骤包括:从生产环境采集一用户使用的指令数据,并获取系统错误日志及所述指令数据的自动化测试结果;根据所述指令数据的指令子参数、系统错误日志、自动化测试结果,计算所述指令数据的第一高危分数;基于所述指令数据的词向量,计算所述指令数据的第二高危分数;根据所述第一高危分数与所述第二高危分数,获取所述指令数据的异常检测结果。2.如权利要求1所述的方法,其特征在于,所述从生产环境采集一用户使用的指令数据,包括:基于所述运维用户的需求,修改用户指令历史记录规则;根据修改后的用户指令历史记录规则,采集所述用户在生产环境中使用的指令数据。3.如权利要求1所述的方法,其特征在于,所述从生产环境采集一用户使用的指令数据之后,还包括:对所述指令数据进行清洗,获取所述指令数据的可信度评分;基于可信度阈值,清洗低于所述可信度评分指令数据。4.如权利要求3所述的方法,其特征在于,所述对所述指令数据进行清洗,获取所述指令数据的可信度评分,包括:获取所述指令数据的分割结果,所述分割结果包括:指令名称和指令连接符,所述分割结果还包括:指令参数,所述分割结果还包括:指令标识符;将所述指令数据的初始可信度分数设为满分;基于所述分割结果,通过检查所述指令数据是否为操作系统中标志的指令,获取所述指令数据的第一可信度分数;基于所述分割结果,通过判断所述指令数据是否存在帮助标识符及所述帮助标识符的数量,获取所述指令数据的第二可信度分数;基于所述分割结果,通过判断所述指令数据是否存在于系统路径,获取所述指令数据的第三可信度分数;基于所述分割结果,通过判断所述指令数据在该用户当前所在的上下文环境是否存在,获取所述指令数据的第四可信度分数;在所述初始可信度分数中分别扣除所述第一可信度分数、所述第二可信度分数、所述第三可信度分数、所述第四可信度分数,得到所述指令数据的可信度评分。5.如权利要求4所述的方法,其特征在于,所述获取所述指令数据的分割结果,包括:获取所述用户的指令数据训练集;针对训练集中的每一指令数据样本,采用以空格为分割符进行分割,将所述指令数据样本分为若个指令子参数;基于所述指令子参数的标注,利用基于序列标注的半监督方法,获得分割模型;将所述指令数据输入所述分割模型,得到所述分割结果。6.如权利要求1所述的方法,其特征...

【专利技术属性】
技术研发人员:杨嵘陈松岳翟海滨王勇武义涵郑延钦蒋卓君刘庆云
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1