一种基于深度学习的工业控制流量协议识别方法技术

技术编号:34468797 阅读:23 留言:0更新日期:2022-08-10 08:42
一种基于深度学习的工业控制流量协议识别方法,涉及一种提高工业控制模型运行方法,本发明专利技术将其划分为训练数据集和做测试数据集;通过数据加强将训练数据集调整数据的不平衡性,将处理过后的数据作为下一层的输入;使用最大似然估计计算最优标注序列,通过训练得到最高条件概率对输入数据进行标记;使用MLP作为协议识别的分类器,效果不理想可以优化权重参数,继续学习直到模型最优化,将此模块与真实工控环境结合达到实时监测的效果。本发明专利技术绕过了私有协议的预特征处理以及人工提取特征值,避免不必要的困难与损失;实现对工业控制系统协议的实时自动有效解析识别,达到流量监测与分类,避免恶意流量攻击工业系统,保障工业控制系统的安全,提高工业环境的工作效率。提高工业环境的工作效率。提高工业环境的工作效率。

【技术实现步骤摘要】
一种基于深度学习的工业控制流量协议识别方法


[0001]本专利技术涉及一种提高工业控制模型运行方法,特别是涉及一种基于深度学习的工业控制流量协议识别方法。

技术介绍

[0002]工控协议是工控系统传输数据的立根之本,工控系统交换数据可根据工控协议建立的规则和标准进行约束。工控协议是工控网络安全的基础,对工控流量异常监测、维护工控系统网络安全意义深远。不同生产商使用的工控协议不一,间接造成了一系列的不便、安全等问题,这些难题备受工业控制行业的关注。常见的工控协议分为公开协议和私有协议,且这些私有协议识别的主要方法有:基于深度包监测(DPI,Deep Packet Inspection)的工控流量解析和基于端口的工控网络流量协议识别。
[0003]基于DPI的工控流量识别首先需要对输入的流量进行特征分析,对其数据包所携带的功能码进行识别。需要人工等机械的方式对工控流量包逐步进行解包,检查数据包中是否携带正确的功能码,如果是则允许数据包通过运输到下一层,进行下一步的工作。DPI技术对很多工控系统流量解析有很高的效率和精准度。随着工控行业的快速发展,技术慢慢向人工智能靠近,随之而来是传输要求越来月高,伴随的数据量也逐渐剧增,对应的工控协议数量也呈“指数爆炸”形式增长,DPI技术识别已知的工控协议有很高的工作效率,但对大多数未知的工控协议并不适用,且DPI对运行环境的要求也很高,造价昂贵。
[0004]初期工控处于封闭的网络环境,使用基于端口识别的技术,该技术在已有映射表的基础上查询工控数据端口,使得工控数据传输遵循约定俗成的规则,将传输数据以此对号入座。例如西门子S7协议使用102端口,施耐德Modbus协议使用502端口,而基于端口的工控流量协议识别在此前封闭的工控网络中具有准确率和识别效率非常高的特点。但是根据“两化”的融合,传统工控网络环境逐渐走向外界网络,特别是动态端口技术的发展,工控网络环境也在日新月异的变化,基于端口识别的技术并不适用新定义的端口,同时增加了工控流量识别的难度。
[0005]由于基于端口号和基于DPI技术在协议解析的某些部分存在不可避免的短板,故一种结构简单并且变化方式多样的工控协议解析系统的提出,对工业控制行业及其跨领域方面的应用是十分积极的。

技术实现思路

[0006]本专利技术的目的在于提供一种基于深度学习的工业控制流量协议识别方法,本专利技术对工业控制系统中不同类型的流量协议,提出一种基于深度学习的工业控制流量协议识别方法。该方法通过模型自身不断学习优化,显示出在不同参数下与现实工控流量(正常和异常)拟合的精度。如果精度不高,模型转入通过输入数据继续训练学习,直至达到精度符合标准为止。为识别工控协议技术存在的识别复杂性、难以适应性、运行环境困难性提供一种技术思路。
[0007]本专利技术的目的通过如下技术方案实现:一种基于深度学习的工业控制流量协议识别方法,所述方法包括以下过程:(1)采集数据,考虑到工业控制系统中传输数据不止单一公开抑或是私有协议,在工控模拟平台对工控协议流量进行采集,包含很多工业控制系统的公开、私有协议,例如Modbus、S7comm、DNP3;(2)数据处理,对采集的流量数据做正则表达式简单过滤、数据截取、Max

Min归一化操作后,将流量数据转化,作为深度学习模型的输入特征;(3)使用抓包软件对采集的工控数据使用流追踪,工控系统中不止一种对下位机的操作,故执行流重组筛选出两组不同的数据集满足实验需求;根据工控流量协议基于TCP和UDP工作,一方面可以根据“心跳包”和存在于TCP“三次握手”和“四次挥手”判断操作是否连接成功和是否完成某次操作,进而判断数据包的完整性;另一方面根据时间戳的连续性和间隔性,表示数据包隶属于某个支流;并对数据集样本标签进行One

Hot编码处理;(4)将预处理的工控流量协议样本(正常和异常)构成训练集,作为深度学习模型的输入;为了确保预处理的工控流量中,正常流量的数量远多于非正常的异常流量,使建立系统模型输出结果与存在少数样本欠拟合,利用WGAN

GP(对抗网络)产生虚拟数据,调整数据存在的不平衡性;将流量数据转化为深度学习模型的输入特征;(5)进而传输到神经网络模型中,卷积神经网络包含数据输入,卷积池化层S1,卷积池化层S2,残差模块C、条件随机场CRF和MLP分类器;神经网络模型通过改变滤波器和池化层对输出特征图大小进行修改,在保留局部特征的有效信息的同时,减少数据量,减少过拟合,提升模型的容错能力;(6)条件随机场CRF对所有观察序列的标注序列的联合概率,作为一个未归一化的有限状态模型和损失函数是凸函数,能够确保收敛到全局最优;(7)而后训练集数据通过神经网络模型之后输出协议的种类类型,并与先前的样本标签数据进行比较,参考结构精准度是否继续进行优化模型参数,使得深度学习模型不断学习,提高精准度;(8)将工控流量数据实时输入到搭建的协议解析模块中,得出识别结果与操作站显示人机界面进行对比,防止恶意流量对工控环境系统进行篡改、攻击等操作。
[0008]所述的一种基于深度学习的工业控制流量协议识别方法,所述数据预处理,对在石油化工行业信息安全重点实验室中采集的流量数据做处理,继而使用抓包软件对采集的工控数据使用流追踪,工控系统有很多操作指令,故执行流重组筛选出两组不同的数据集满足实验需求。
[0009]所述的一种基于深度学习的工业控制流量协议识别方法,所述将上述得到的数据作为S1层的特征输入:卷积核的大小表示为(channel,height,width),输入特征图大小设定为W1
×
H1
×
D1,输出特征图大小设定为W2
×
H2
×
D2;该层卷积核设置为1
×5×
5,步幅(stride)为1,填充(padding)为2;经过池化层进行缩小卷积层生成的特征图大小,在不增加系统模型学习参数、通道数不发生变化的同时增强整个系统的鲁棒性,每个卷积核附加一个偏置参数;根据输入数据大小和卷积核大小可以确定输出特征图大小计算方法。
[0010]所述的一种基于深度学习的工业控制流量协议识别方法,所述S2层原理与S1相似,根据上述假设得到的输入特征图,卷积核与上一层一致,池化层为最大池化2
×
2,步幅
为2,填充为0,得到输出特征图大小;将S2的输出特征图作为残差模块的输入,通道大小不变,经过残差模块处理,将输出特征传输给一层随机条件场CRF。
[0011]所述的一种基于深度学习的工业控制流量协议识别方法,所述.残差模块ResNet,特点在于具有比传统网络更深、更快捷的结构;通过快捷结构,反向传播数据可以无衰减地传递;该系统使用ResNet结构,避免梯度会变小或变大。
[0012]所述的一种基于深度学习的工业控制流量协议识别方法,所述由残差模块的输出作为条件随机场CRF的输入序列Z=,其中n为输入序列的长度,Y=为Z对于的输出序列;对于给定输出序本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的工业控制流量协议识别方法,其特征在于,所述方法包括以下过程:(1)采集数据,考虑到工业控制系统中传输数据不止单一公开抑或是私有协议,在工控模拟平台对工控协议流量进行采集,包含很多工业控制系统的公开、私有协议,例如Modbus、S7comm、DNP3;(2)数据处理,对采集的流量数据做正则表达式简单过滤、数据截取、Max

Min归一化操作后,将流量数据转化,作为深度学习模型的输入特征;(3)使用抓包软件对采集的工控数据使用流追踪,工控系统中不止一种对下位机的操作,故执行流重组筛选出两组不同的数据集满足实验需求;根据工控流量协议基于TCP和UDP工作,一方面可以根据“心跳包”和存在于TCP“三次握手”和“四次挥手”判断操作是否连接成功和是否完成某次操作,进而判断数据包的完整性;另一方面根据时间戳的连续性和间隔性,表示数据包隶属于某个支流;并对数据集样本标签进行One

Hot编码处理;(4)将预处理的工控流量协议样本(正常和异常)构成训练集,作为深度学习模型的输入;为了确保预处理的工控流量中,正常流量的数量远多于非正常的异常流量,使建立系统模型输出结果与存在少数样本欠拟合,利用WGAN

GP(对抗网络)产生虚拟数据,调整数据存在的不平衡性;将流量数据转化为深度学习模型的输入特征;(5)进而传输到神经网络模型中,卷积神经网络包含数据输入,卷积池化层S1,卷积池化层S2,残差模块C、条件随机场CRF和MLP分类器;神经网络模型通过改变滤波器和池化层对输出特征图大小进行修改,在保留局部特征的有效信息的同时,减少数据量,减少过拟合,提升模型的容错能力;(6)条件随机场CRF对所有观察序列的标注序列的联合概率,作为一个未归一化的有限状态模型和损失函数是凸函数,能够确保收敛到全局最优;(7)而后训练集数据通过神经网络模型之后输出协议的种类类型,并与先前的样本标签数据进行比较,参考结构精准度是否继续进行优化模型参数,使得深度学习模型不断学习,提高精准度;(8)将工控流量数据实时输入到搭建的协议解析模块中,得出识别结果与操作站显示人机界面进行对比,防止恶意流量对工控环境系统进行篡改、攻击等操作。2.根据权利要求1所述的一种基于深度学习的工业控制流量协议识别方法,其特征在于,所述数据预处理,对在石油化工行业信息安全重点实验室中采集的流量数据做处理,继而使用抓包软件对采集的工控数据使用流追踪,工控系统有很多操作指令,故执行流重组筛选出两组不同的数据集满足实验需求。3.根据权利要求1所述的一种基于深度学习的工业控制流量协议识别方法,其特征在于,所述将上述得到的数据作为S1层的特征输入:卷积核的大小...

【专利技术属性】
技术研发人员:李群峰郑洪宇宗学军何戡杨忠君连莲孙逸菲
申请(专利权)人:沈阳化工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1