System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于规则分区调整的决策树包分类优化方法技术_技高网
当前位置: 首页 > 专利查询>福州大学专利>正文

一种基于规则分区调整的决策树包分类优化方法技术

技术编号:40494459 阅读:8 留言:0更新日期:2024-02-26 19:23
本发明专利技术提供一种基于规则分区调整的决策树包分类优化方法,根据规则重叠情况和启发式建树特点,调整优化用于建树的规则分区,并结合元组构建紧凑的决策树数据结构,实现快速规则查找,并确保有限的内存开销。

【技术实现步骤摘要】

本专利技术属于计算机网络领域中的数据包分类问题,具体涉及一种基于规则分区调整的决策树包分类优化方法


技术介绍

1、数据包分类是路由转发的瓶颈,也是防火墙、访问控制、网络安全、网络测量、服务质量(quality ofservice,qos)等网络功能的核心基础。数据包分类的本质是空间点定位,即匹配基于多个报头字段的数据包和规则。基于决策树的包分类算法因其快速的匹配性能以及高可扩展性成为当下研究热点。传统决策树包分类算法根据不同规则集的分布特点,提出多种建树启发式对规则搜索空间进行不同维度切割以缩小搜索范围。为了减少规则重叠导致的规则复制问题,现有方法在建树前引入了划分规则子集过程以分离重叠规则,从而构建出更低层次、更高效的决策树。

2、现有划分子集过程基于不同规则特征,例如前缀长度、字段大小、协议号,将规则集划分成多个子集,对每个子集使用合适启发式进行配置。然而,基于字段长度的划分方法没有考虑到规则间的相互关系,使得同一个规则子集内存在规则重叠,而规则重叠是导致决策树算法性能瓶颈的重要原因之一。随着sdn体系结构中网络应用精细化管控,预设规则集规模增大,规则重叠数量增加,现有工作的分区结果已无法满足复杂网络数据包分类需求。


技术实现思路

1、针对现有技术存在的缺陷和不足,本专利技术提供一种基于规则分区调整的决策树包分类优化方法,以提升决策树算法分类速度的同时减小数据结构的内存开销。其根据规则重叠情况和启发式建树特点,调整优化用于建树的规则分区,并结合元组构建紧凑的决策树数据结构,实现快速规则查找,并确保有限的内存开销。

2、本专利技术解决其技术问题具体采用的技术方案是:

3、一种基于规则分区调整的决策树包分类优化方法,其特征在于,根据规则重叠情况和启发式建树特点,调整优化用于建树的规则分区,并结合元组构建紧凑且低内存开销的决策树数据结构。

4、进一步地,具体包括以下步骤:

5、根据规则的重叠情况,构建现有规则子集的重叠依赖关系图;

6、评估现有的规则子集;

7、基于贪心策略,确定需要调整的候选规则集;

8、最优化求解调整规则集;

9、以及,构建元组辅助的决策树数据结构。

10、进一步地,所述重叠依赖关系图是一个有向带权无环图gi=(vi,ei,wi),vi表示分区子集subseti中的规则节点,ei中的有向边被表示为(vj,vk),其中且优先级大小pj<pk,wi是每一条边的权重集合,权重的大小体现了消除规则重叠的优先程度;

11、重叠依赖关系图中:有以下几种取值:(1)前缀重叠α,适用于在切割时可选位相对较多的前缀匹配字段;(2)范围重叠β,适用于范围匹配字段;(3)精确重叠γ,适用于精确匹配字段;三个权重的大小关系是α<β<γ,对于多个字段重叠的情况,权重是重叠字段权重的平均值。

12、进一步地,现有规则子集评估通过设定的度量指标实现:度量指标包括:通配符比率,规则重叠数量和规则重叠分数;其中,通配符比率为第i个规则子集subseti中所有规则的第j位中通配符的个数占subseti中总规则数的比值,规则重叠数量为规则集中存在重叠的规则数,规则重叠分数以规则重叠面积评估规则重叠的影响程度。

13、进一步地,基于贪心策略的候选规则集选择算法如下:(1)遍历所有规则子集并计算度量指标;(2)根据通配符比率的提高情况,迭代选择具有最高规则重叠分数的规则,并在候选规则集和初始规则集中分别执行插入或删除操作;(3)最后,比较优先级,以避免将无效规则插入候选集,(4)当初始规则集中剩余规则的重叠面积小于设定的阈值时,退出选择过程。

14、进一步地,所述最优化求解调整规则集具体为:将最优调整规则集选取转换为整数线性规划问题:以重叠依赖关系图和候选规则集作为输入,以满足内存限制的情况下最小化需要调整的规则数量为目标,松弛问题获得渐进解;所设定的基本约束条件有:(1)重叠的规则不出现在同一规则子集中;(2)规则调整后数据结构的内存开销低于原先方案;(3)调整规则的优先级低于规则子集的平均优先级;(4)规则调整后数据结构的查找开销低于原先方案;扩展约束条件有:(5)调整规则后规则集分割过程中的规则冗余程度小于调整前的规则冗余程度;(6)调整规则后的决策树空节点数量小于调整前的空节点数量;对于求解终止条件,通过抽样规则子集前后对决策树的平均内存占用和分类时间来设置相应的求解开销阈值;最终生成调整规则集和初始规则集中去除调整规则集后形成的优质建树规则集。

15、进一步地,在构建获得的元组辅助的决策树数据结构中,数据结构由元组和决策树数据结构组成;利用元组储存调整规则集,在选取的建树规则集上构建决策树,并通过决策树-元组关联指针优化元组匹配过程;当数据包在叶子节点中完成搜索后,通过决策树-元组关联指针和相关优先级信息定位需要搜索的少量元组。

16、相比于现有技术,本专利技术及其优选方案提出了一种基于规则分区调整的决策树包分类优化方法,用于加速决策树包分类规则查找,并确保有限的内存开销。

本文档来自技高网...

【技术保护点】

1.一种基于规则分区调整的决策树包分类优化方法,其特征在于,根据规则重叠情况和启发式建树特点,调整优化用于建树的规则分区,并结合元组构建紧凑且低内存开销的决策树数据结构。

2.根据权利要求1所述的一种基于规则分区调整的决策树包分类优化方法,其特征在于:

3.根据权利要求2所述的一种基于规则分区调整的决策树包分类优化方法,其特征在于:

4.根据权利要求2所述的一种基于规则分区调整的决策树包分类优化方法,其特征在于:现有规则子集评估通过设定的度量指标实现:度量指标包括:通配符比率,规则重叠数量和规则重叠分数;其中,通配符比率为第i个规则子集subseti中所有规则的第j位中通配符的个数占subseti中总规则数的比值,规则重叠数量为规则集中存在重叠的规则数,规则重叠分数以规则重叠面积评估规则重叠的影响程度。

5.根据权利要求2所述的一种基于规则分区调整的决策树包分类优化方法,其特征在于:基于贪心策略的候选规则集选择算法如下:(1)遍历所有规则子集并计算度量指标;(2)根据通配符比率的提高情况,迭代选择具有最高规则重叠分数的规则,并在候选规则集和初始规则集中分别执行插入或删除操作;(3)最后,比较优先级,以避免将无效规则插入候选集,(4)当初始规则集中剩余规则的重叠面积小于设定的阈值时,退出选择过程。

6.根据权利要求2所述的一种基于规则分区调整的决策树包分类优化方法,其特征在于:所述最优化求解调整规则集具体为:将最优调整规则集选取转换为整数线性规划问题:以重叠依赖关系图和候选规则集作为输入,以满足内存限制的情况下最小化需要调整的规则数量为目标,松弛问题获得渐进解;所设定的基本约束条件有:(1)重叠的规则不出现在同一规则子集中;(2)规则调整后数据结构的内存开销低于原先方案;(3)调整规则的优先级低于规则子集的平均优先级;(4)规则调整后数据结构的查找开销低于原先方案;扩展约束条件有:(5)调整规则后规则集分割过程中的规则冗余程度小于调整前的规则冗余程度;(6)调整规则后的决策树空节点数量小于调整前的空节点数量;对于求解终止条件,通过抽样规则子集前后对决策树的平均内存占用和分类时间来设置相应的求解开销阈值;最终生成调整规则集和初始规则集中去除调整规则集后形成的优质建树规则集。

7.根据权利要求2所述的一种基于规则分区调整的决策树包分类优化方法,其特征在于:在构建获得的元组辅助的决策树数据结构中,数据结构由元组和决策树数据结构组成;利用元组储存调整规则集,在选取的建树规则集上构建决策树,并通过决策树-元组关联指针优化元组匹配过程;当数据包在叶子节点中完成搜索后,通过决策树-元组关联指针和相关优先级信息定位需要搜索的少量元组。

...

【技术特征摘要】

1.一种基于规则分区调整的决策树包分类优化方法,其特征在于,根据规则重叠情况和启发式建树特点,调整优化用于建树的规则分区,并结合元组构建紧凑且低内存开销的决策树数据结构。

2.根据权利要求1所述的一种基于规则分区调整的决策树包分类优化方法,其特征在于:

3.根据权利要求2所述的一种基于规则分区调整的决策树包分类优化方法,其特征在于:

4.根据权利要求2所述的一种基于规则分区调整的决策树包分类优化方法,其特征在于:现有规则子集评估通过设定的度量指标实现:度量指标包括:通配符比率,规则重叠数量和规则重叠分数;其中,通配符比率为第i个规则子集subseti中所有规则的第j位中通配符的个数占subseti中总规则数的比值,规则重叠数量为规则集中存在重叠的规则数,规则重叠分数以规则重叠面积评估规则重叠的影响程度。

5.根据权利要求2所述的一种基于规则分区调整的决策树包分类优化方法,其特征在于:基于贪心策略的候选规则集选择算法如下:(1)遍历所有规则子集并计算度量指标;(2)根据通配符比率的提高情况,迭代选择具有最高规则重叠分数的规则,并在候选规则集和初始规则集中分别执行插入或删除操作;(3)最后,比较优先级,以避免将无效规则插入候选集,(4)当初始规则集中剩余规则的重叠面积小于设定的阈值时,退出选择过程。

【专利技术属性】
技术研发人员:张栋黄泷郑林滢朱龙隆余佳硕
申请(专利权)人:福州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1