一种基于多个匹配引擎的结果加权的HTTPS流量应用分类方法技术

技术编号:28383669 阅读:14 留言:0更新日期:2021-05-08 00:12
本发明专利技术提供了一种基于多个匹配引擎的结果加权的HTTPS流量应用分类方法,属于网络数据识别处理技术领域。本发明专利技术方法构建规则文件层、识别引擎层和结果聚合和比对层,依据输入的五元组规则文件、正则规则文件、固定位置规则文件、负载长度规则文件、SNI规则文件、客户端证书规则文件和服务端证书规则文件构建相应的匹配引擎,对捕获的HTTPS流量调用各匹配引擎进行识别,根据识别结果数目计算各匹配引擎的命中概率和最终应用分类命中概率,从而获得相应的应用类别。本发明专利技术以多维度对HTTPS流量进行分类识别,对分类结果加权求和已获得最终应用分类结果,能实现对企业内网、互联网流量的HTTPS流量的精准分类的要求。

【技术实现步骤摘要】
一种基于多个匹配引擎的结果加权的HTTPS流量应用分类方法
本专利技术涉及网络流量数据识别和处理
,具体是一种基于多个匹配引擎的HTTPS(HyperTextTransferProtocoloverSecureSocketLayer,超文本传输安全协议)流量应用分类方法。
技术介绍
随着人们对数据安全的重视度提高,国内外越来越多的网站、手机APP(应用程序)、PC(个人计算机)端应用都开始应用HTTPS协议。HTTPS在保障数据安全的同时,也给企业内网、互联网流量监管带来了难题,例如一些不法分子通过HTTPS发动一些黑客攻击或传播木马病毒等,因此需要对HTTPS流量进行应用分类。常见的HTTPS流量应用分类方法是提取HTTPS流量中的五元组信息或者数据包内容进行单个匹配引擎的识别,不能够达到精准的应用分类效果。而采用多个匹配引擎识别的算法,也未对结果进行合理的加权。
技术实现思路
针对上述技术问题,本专利技术提供了一种基于多个匹配引擎的结果加权的HTTPS流量应用分类方法,对HTTPS流量中的五元组信息或者数据包内容的查找提供了多个匹配引擎,对多个匹配引擎的结果进行加权计算,根据最终的得分,实现对HTTPS流量进行精准应用分类。本专利技术的一种基于多个匹配引擎的结果加权HTTPS流量应用分类方法,包括如下步骤:步骤一、构建规则文件层,在规则文件层设置不同规则文件输入接口;规则文件包括五元组规则文件、正则规则文件、固定位置规则文件、负载长度规则文件、SNI(ServerNameIndication,服务器域名指示)规则文件、客户端证书规则文件以及服务端证书规则文件;步骤二、构建识别引擎层,在识别引擎层记载相应的规则文件,生成五元组匹配引擎、正则匹配引擎、固定位置匹配引擎、负载长度匹配引擎、SNI匹配引擎、客户端证书匹配引擎以及服务端证书匹配引擎;步骤三,构建结果聚合和比对层,在结果聚合和比对层加载匹配引擎结果加权因子文件,构建结果聚合引擎,加载结果分类对应区间数值的文件,构建结果分类引擎;步骤四,将捕获的HTTPS流量输入识别引擎层,调用各匹配引擎,获得各匹配结果;结果聚合引擎首先计算各匹配引擎的命中概率,再结合结果加权因子获得最终用于应用分类的命中概率值F,根据概率值F从结果分类对应区间数值的文件中进行比对,查找到所属类别,最后输出HTTPS流量所对应的应用类别。所述的步骤一中,五元组规则文件包括A1条五元组规则,每条五元组规则包括源IP、目的IP、源端口、目的端口和协议号;正则表达式规则文件包括A2条正则表达式,每条正则表达式规则包括正则表达式的语法描述;固定位置规则文件包括A3条固定位置规则,每条固定位置规则包括位置偏移量、数据长度和数据内容;负载长度规则文件包括A4条负载长度规则,每条负载长度规则包括负载长度大小;SNI规则文件包括A5条SNI规则,每条SNI规则包括SNI内容;客户端证书规则文件包括A6条HTTPS的客户端证书规则,每条HTTPS的客户端证书规则包括客户端证书的CA机构、证书绑定的域名、证书有效期和证书拥有者;服务端证书规则文件包括A7条HTTPS的服务端证书规则,每条HTTPS的服务端证书规则包括服务端证书的CA机构、证书绑定的域名、证书有效期和证书拥有者。其中,A1~A7均为大于1的正整数。所述的步骤三中,匹配引擎结果加权因子文件中记载7个匹配引擎的结果加权因子D1,D2…D7;结果分类对应区间数值的文件中记载n个应用分类的数值区间。所述的步骤四中获得7个匹配引擎的命中概率如下:p1=C1/A1,p2=C2/A2,p3=C3/A3,p4=C4/A4,p5=C5/A5,p6=C6/A6,p7=C7/A7;结合结果加权因子获得概率值F=p1*D1+p2*D2+p3*D3+p4*D4+p5*D5+p6*D6+p7*D7;其中,C1,C2…C7表示7个匹配引擎的匹配结果数据;A1,A2…A7表示7个规则文件中的规则数目。所述的步骤四中,编写处理代码对HTTPS流量数据包进行检测,识别HTTPS流量所属的应用分类,包括如下步骤:步骤1001、对数据包提取五元组信息,调用五元组匹配引擎,得到匹配结果数目为C1;步骤1002、对数据包提取负载数据内容,调用正则匹配引擎,得到匹配结果数目为C2;步骤1003、对数据包提取负载数据内容,调用固定位置匹配引擎,得到匹配结果数目为C3;步骤1004、对数据包提取负载内容的长度,调用负载长度匹配引擎,得到匹配结果数目为C4;步骤1005、对数据包提取HTTPS的SNI规则文件,调用SNI匹配引擎,得到匹配结果数目为C5;步骤1006、对数据包提取HTTPS的客户端证书规则文件,调用客户端证书匹配引擎,得到匹配结果数目为C6;步骤1007、对数据包提取HTTPS的服务端证书规则文件,调用服务端证书匹配引擎,得到匹配结果数目为C7;步骤1008、计算每种匹配引擎命中的概率p1,p2…p7;步骤1009、按照加权因子,计算最终的结果为F;步骤1010、将最终的结果F,在各个数值区间中查找,得到HTTPS流量对应的应用分类。相对于现有技术,本专利技术的一种基于多个匹配引擎的结果加权的HTTPS流量应用分类方法,优点在于:以多个维度对HTTPS流量进行分类识别,并对分类识别结果加权求和,再进行应用分类,满足对企业内网、互联网流量的HTTPS流量的精准分类的要求,经使用验证,采用本专利技术方法能获得更准确、更精细的应用分类结果。附图说明图1是本专利技术一种基于多个匹配引擎的结果加权的HTTPS流量应用分类方法的架构结构图;图2是本专利技术一种基于多个匹配引擎的结果加权的HTTPS流量应用分类方法的初始化流程图;图3是本专利技术一种基于多个匹配引擎的结果加权的HTTPS流量应用分类方法的匹配流程图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,下面将结合附图对本专利技术实施方式作进一步地详细描述。如图1所示,本专利技术的一种基于多个匹配引擎的HTTPS流量应用分类方法所实现的架构结构分为规则文件层、识别引擎层、结果聚合和比对层。规则文件层作为识别引擎层的输入,结果聚合和比对层对识别引擎层的输出结果进行结果的合并和比对,得到最终的结果。规则文件层包括五元组规则文件、正则规则文件、固定位置规则文件、负载长度规则文件、SNI规则文件、客户端证书规则文件及服务端证书规则文件。识别引擎层包括五元组匹配引擎、正则匹配引擎、固定位置匹配引擎、负载长度匹配引擎、SNI匹配引擎、客户端证书匹配引擎及服务端证书匹配引擎。结果聚合和比对层对识别引擎层包括结果聚合和比对分析引擎、分类结果名称与取值对应文件。本专利技术的一种基于多个匹配引擎的HTTPS流量应用分类方法的实施包括初始化流程和匹配流程。如图2所示,本专利技术一种基于本文档来自技高网...

【技术保护点】
1.一种基于多个匹配引擎的结果加权的HTTPS流量应用分类方法,其特征在于,包括:/n步骤一,构建规则文件层,在规则文件层设置不同规则文件输入接口,规则文件包括五元组规则文件、正则规则文件、固定位置规则文件、负载长度规则文件、SNI规则文件、客户端证书规则文件以及服务端证书规则文件;SNI表示服务器域名指示;/n步骤二,构建识别引擎层,根据输入的规则文件生成相应的匹配引擎,包括五元组匹配引擎、正则匹配引擎、固定位置匹配引擎、负载长度匹配引擎、SNI匹配引擎、客户端证书匹配引擎及服务端证书匹配引擎;/n步骤三,构建结果聚合和比对层,在结果聚合和比对层加载匹配引擎结果加权因子文件,构建结果聚合引擎,加载结果分类对应区间数值的文件,构建结果分类引擎;/n所述的匹配引擎结果加权因子文件中记载7个匹配引擎的结果加权因子D1,D2…D7;/n所述的结果分类对应区间数值的文件中记载n个应用分类的数值区间;/n步骤四,将捕获的HTTPS流量输入识别引擎层,调用各匹配引擎,获得各匹配结果;结果聚合引擎首先计算各匹配结果的命中概率,获得7个概率如下:/np1=C1/A1,p2=C2/A2,p3=C3/A3,p4=C4/A4,p5=C5/A5,p6=C6/A6,p7=C7/A7;/n再结合结果加权因子获得概率值F=p1*D1+p2*D2+p3*D3+p4*D4+p5*D5+p6*D6+p7*D7;/n其中,C1,C2…C7表示7个匹配引擎的匹配结果数据;A1,A2…A7表示7个规则文件中的规则数目;/n根据获得的概率值F从结果分类对应区间数值的文件中进行比对,查找到所属类别,最后输出HTTPS流量所对应的应用类别。/n...

【技术特征摘要】
1.一种基于多个匹配引擎的结果加权的HTTPS流量应用分类方法,其特征在于,包括:
步骤一,构建规则文件层,在规则文件层设置不同规则文件输入接口,规则文件包括五元组规则文件、正则规则文件、固定位置规则文件、负载长度规则文件、SNI规则文件、客户端证书规则文件以及服务端证书规则文件;SNI表示服务器域名指示;
步骤二,构建识别引擎层,根据输入的规则文件生成相应的匹配引擎,包括五元组匹配引擎、正则匹配引擎、固定位置匹配引擎、负载长度匹配引擎、SNI匹配引擎、客户端证书匹配引擎及服务端证书匹配引擎;
步骤三,构建结果聚合和比对层,在结果聚合和比对层加载匹配引擎结果加权因子文件,构建结果聚合引擎,加载结果分类对应区间数值的文件,构建结果分类引擎;
所述的匹配引擎结果加权因子文件中记载7个匹配引擎的结果加权因子D1,D2…D7;
所述的结果分类对应区间数值的文件中记载n个应用分类的数值区间;
步骤四,将捕获的HTTPS流量输入识别引擎层,调用各匹配引擎,获得各匹配结果;结果聚合引擎首先计算各匹配结果的命中概率,获得7个概率如下:
p1=C1/A1,p2=C2/A2,p3=C3/A3,p4=C4/A4,p5=C5/A5,p6=C6/A6,p7=C7/A7;
再结合结果加权因子获得概率值F=p1*D1+p2*D2+p3*D3+p4*D4+p5*D5+p6*D6+p7*D7;
其中,C1,C2…C7表示7个匹配引擎的匹配结果数据;A1,A2…A7表示7个规则文件中的规则数目;
根据获得的概率值F从结果分类对应区间数值的文件中进行比对,查找到所属类别,最后输出HTTPS流量所对应的应用类别。


2.根据权利要求1所述的方法,其特征在于,所述的步骤一中,五元组规则文件包括A1条五元组规则,每条五元组规则包括源IP、目的IP、源端口、目的端口和协议号;正则表达式规则文件包括A2条正则表达式,每条正则表达式...

【专利技术属性】
技术研发人员:谢铭胡小勇刘庆良姚彤彤钱金新梁才
申请(专利权)人:北京赛思信安技术股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1