一种基于动态学习三元组的流量应用识别系统及方法技术方案

技术编号:24362181 阅读:34 留言:0更新日期:2020-06-03 03:54
本发明专利技术公开了一种基于动态学习三元组的流量应用识别系统及方法,属于网络管理中流量应用识别技术领域。在本发明专利技术中,动态学习三元组可根据不同的应用来设置老化时间,同时也可通过用户静态的配置来设置三元组在内存中的老化时间和周期,进而解决现有技术中加密流量应用的识别问题,进而提高提高应用识别引擎性能,同时为加密流量的识别带来新解决途径。

A traffic application recognition system and method based on dynamic learning triplet

【技术实现步骤摘要】
一种基于动态学习三元组的流量应用识别系统及方法
本专利技术涉及网络管理中流量应用识别
,具体涉及一种基于动态学习三元组的流量应用识别系统及方法。
技术介绍
通过对流量应用的识别,实现对流量按应用分类,从而为后续的业务管控提供基础数据输入。现有的流量应用识别方法主要包括:字符串识别方法、IP地址识别方法、端口识别方法、模型识别方法及特定的字节运算关系方法等,其中,字符串识别方法:主要包括明文字符串识别方法、HEX字符串识别方法、正则字符串识别方法,通过字符串识别应用的流量,为了提高识别率同时降低误识别的概率。在定义应用识别规则时,通常采用上下文的机制来保证尽可能的降低误识别,所谓上下文即一个识别应用规则通过请求和应答两个方向上的不同的报文所同时携带的字符串特征组合来定义;特定的字节运算关系方法:基于socket通信的机制,socket中所传输信息都需客户端和服务器端双方可解释的消息,可解释包括双方可解释消息的类型及消息的长度,即通常协议规范中定义的消息长度、消息指令等信息。根据此原理,通常可以根据socket消息中的指令+报文的某部分字节经过运算得到报文消息长度的组合规则定义识别一个应用;IP地址识别方法:主要包括IP地址库识别方法和域名库识别方法,IP地址库主要由应用识别特征库的维护方日常的收集,但由于应用的IP地址是经常变化,对于维护收集来说比较困难。域名库主要由应用识别分析工程师在分析对应应用时添加的,应用识别设备通过解析DNS流量,通过DNS中的域名和IP地址的映射关系,从而建立IP地址与应用之间的对应关系;端口识别方法:利用应用监听的端口进行应用识别,由于应用监听的端口不是强制性固定的,故端口识别方法通常应用于知名端口应用的识别;流量模型识别方法:主要通过建立对应用的流与流之间逻辑关系、以及流的包长、时延等多维度的统计信息,通过建立单条流内的流量统计数据以及流与流之间的模型数据,从而完成对加密应用的流量识别。流量应用识别系统为了降低应用识别的误识别率和提高识别率,常采用多种识别手段组合使用。但,随着HTTPS技术以及加密流量应用场景的普及,现网流量中加密流量占比越来越高,比如:在运营商城域网接入网流量中,加密流量已占比30%以上,此时,再利用传统的识别方法(如:字符串识别、流量模型识别、特定的字节运算关系识别等)都不能完全识别加密流量;或者,完全识别加密流量,则需花费巨大的资源、成本等代价。此外,采用现有手段技术识别P2P流时,效率低,误识别率高,不仅不能同时及准确的识别具体属于哪一种P2P应用,而且基于流量载荷进行的特征子多模匹配,每条流都会完整的进行匹配,效率低且花费资源代价高。于2013年04月17日公开了一件公开号为CN103051725A,名称为“应用识别方法、数据挖掘方法、装置及系统”的专利文献,其中,该UBA数据挖掘方法包括:获得待处理数据,所述待处理数据包括多条记录,其中每条记录包括:成对应关系的应用信息、远端三元组信息;对所述待处理数据中远端三元组信息及应用信息相同的记录进行聚类处理,并根据所述待处理数据中远端三元组信息及应用信息相同的记录计算对应于所述远端三元组信息及应用信息的服务负载量,得到包含成对应关系的远端三元组信息、应用信息及服务负载量的聚类结果;根据所述服务负载量的大小或比重从所述聚类结果中选取可信度高的成对应关系的远端三元组与应用信息;向DPI子系统发送所述可信度高的成对应关系的远端三元组与应用信息,从而提升DPI识别性能和应用识别率。于2019年05月07日公开了一件公开号为CN109726814A,名称为“一种基于自适应增量学习的移动应用识别方法”的专利文献,其中,基于增量学习(IncrementalLearning)提出的一种对于待识别移动应用数量增加的情况下扩展识别范围的方法。目的是解决现有的移动应用识别技术的“灾难性遗忘”现象,在赋予新的移动应用类型识别任务时,原有的效果良好的深度学习分类器保持原状,在其基础上逐步添加新的移动应用类型。这使得整个移动应用识别系统拥有自适应增量学习,可扩展待识别移动应用类型数量的能力。
技术实现思路
本专利技术旨在解决现有技术中加密流量应用的识别问题,而提出了一种基于动态学习三元组的流量应用识别系统及方法。通过本技术方案的设置,克服采用传统的流量应用识别方式无法进行有效快速的识别等缺陷,而在能极大提高应用识别引擎性能的同时,还能为加密流量的识别带来新解决途径。为了实现上述技术目的,提出如下的技术方案:一方面,本专利技术提供了一种基于动态学习三元组的流量应用识别系统,包括用于解析应用识别特征库规则文件和完成对静态三元组数据初始化的控制面模块,以及用于接收线程并根据数据类型分别将不同类型数据安装到内存Hash表中的数据面模块;所述控制面模块通过共享内存的方式,将线程发送至数据面模块;所述线程通过共享FIFO读取由控制面模块传输的静态三元组数据,三元组数据包括域名信息数据、IP数据和端口信息数据。进一步的,所述控制面模块包括解析特征文件单元和解析domain文件单元。进一步的,所述数据面模块包括收包单元、Session管理单元、协议识别单元、协议解析单元、应用识别单元及三元组数据管理单元,其中:所述收包单元用于接收和解析来自网卡的报文信息;所述Session管理单元用于接收报文解析信息,应用识别单元入口即三元组数据管理单元的查询匹配函数入口,三元组数据管理单元查询函数匹配成功,则Session管理单元上会置有DPI-FIN标记,表示应用识别结束;否则,继续进行后续的协议识别程序、协议解解析程序及应用识别程序;所述协议识别单元用于对知名协议进行识别,并反馈给三元组数据管理单元;所述协议解析单元对知名协议进行深度解析,根据不同知名协议产生对应的三元组信息,并将三元组信息插入三元组数据管理单元中;所述应用识别单元利用传统识别手段对后续报文进行补充识别。进一步的,所述知名协议包括DNS协议、FTP协议、SIP协议及RTSP协议。另一方面,本专利技术提供了一种基于动态学习三元组的流量应用识别方法,具体包括:收包单元对报文数据进行接收和解析;Session管理单元接收经收包单元解析后所得的报文解析信息,并得到数据流三元组信息;根据所得的数据流三元组信息,三元组查询函数匹配成功,则Session管理单元上会置有DPI-FIN标记,表示应用识别结束;否则,继续进行后续的知名协议识别程序;在知名协议识别程序中,若三元组查询函数匹配不成功,则进行后续的应用识别程序中的RES协议识别程序;在RES协议识别程序中,若匹配成功,记录session请求方向的三元组信息;若匹配不成功,则记录session响应方向的三元组信息。进一步的,所述Session管理单元接收经收包单元解析后所得的报文解析信息,并得到数据流三元组信息,包括:所述Session管理单元在sess本文档来自技高网
...

【技术保护点】
1.一种基于动态学习三元组的流量应用识别系统,其特征在于:包括用于解析应用识别特征库规则文件和完成对静态三元组数据初始化的控制面模块(1),以及用于接收线程并根据数据类型分别将不同类型数据安装到内存Hash表中的数据面模块(2);/n所述控制面模块(1)通过共享内存的方式,将线程发送至数据面模块(2);/n所述线程通过共享FIFO读取由控制面模块(1)传输的静态三元组数据,三元组数据包括域名信息数据、IP数据和端口信息数据。/n

【技术特征摘要】
1.一种基于动态学习三元组的流量应用识别系统,其特征在于:包括用于解析应用识别特征库规则文件和完成对静态三元组数据初始化的控制面模块(1),以及用于接收线程并根据数据类型分别将不同类型数据安装到内存Hash表中的数据面模块(2);
所述控制面模块(1)通过共享内存的方式,将线程发送至数据面模块(2);
所述线程通过共享FIFO读取由控制面模块(1)传输的静态三元组数据,三元组数据包括域名信息数据、IP数据和端口信息数据。


2.根据权利要求1所述的基于动态学习三元组的流量应用识别系统,其特征在于:所述控制面模块(1)包括解析特征文件单元(11)和解析domain文件单元(12)。


3.根据权利要求1或2所述的基于动态学习三元组的流量应用识别系统,其特征在于:所述数据面模块(2)包括收包单元(21)、Session管理单元(22)、协议识别单元(23)、协议解析单元(24)、应用识别单元(25)及三元组数据管理单元(26),
所述收包单元(21)用于接收和解析来自网卡的报文信息;
所述Session管理单元(22)用于接收报文解析信息,应用识别单元(25)入口即三元组数据管理单元(26)的查询匹配函数入口,三元组数据管理单元(26)查询函数匹配成功,则Session管理单元(22)上会置有DPI-FIN标记,表示应用识别结束;否则,继续进行后续的协议识别程序、协议解解析程序及应用识别程序;
所述协议识别单元(23)用于对知名协议进行识别,并反馈给三元组数据管理单元(26);
所述协议解析单元(24)对知名协议进行深度解析,根据不同知名协议产生对应的三元组信息,并将三元组信息插入三元组数据管理单元(26)中;
所述应用识别单元(25)利用传统识别手段对后续报文进行补充识别。


4.根据权利要求3所述的基于动态学习三元组的流量应用识别系统,其特征在于:所述知名协议包括DNS协议、FTP协议、SIP协议及RTSP协议。


5.一种根据权利要求1所述的基于动态学习三元组的流量应用识别方法,其特征在于,具体包括:
收包单元(21)对报文数据进行接收和解析;
Session管理...

【专利技术属性】
技术研发人员:向广磊蔡文杰
申请(专利权)人:北京百卓网络技术有限公司通鼎互联信息股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1