基于集成学习的数据包分类并行方法及系统技术方案

技术编号：40967134 阅读：9 留言：0更新日期：2024-04-18 20:47

本发明专利技术提供了一种基于集成学习的数据包分类并行方法及系统，包括：步骤S1：建立规则搜索成本模型，量化算法的不同实例之间的互补性；步骤S2：使用遗传算法生成算法的不同实例的最佳组合方案，在找到满足要求的算法实例后，构建算法实例库；步骤S3：构建数据包分类预测模型，从构建成的算法实例库中选择合适的算法实例完成数据包分类操作。本发明专利技术首先敏锐地观察到现存的数据包分类方法存在的最坏情况及其产生的原因，并在集成学习的启发之下，挖掘算法的不同实例之间存在的互补性以优化性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理，具体地，涉及一种基于集成学习的数据包分类并行方法及系统。

技术介绍

1、为了满足新型网络应用的需求，路由器需要提供增强的功能支持，如防火墙、基于策略的路由、服务质量和流量计费等。这些服务需要将传入数据包分类为不同的流，随后根据其分配的流进行各种操作。因此，数据包分类是这些功能的基础构建模块和关键技术。

2、互联网的快速发展导致了对底层基础设施足够带宽的需求增加。光纤技术的成功促进了通信链路上的高速数据传输。这也引发了对数据包分类效率的极度追求。在实际应用场景中，当有大量数据包被传输时，常常会部署具有最佳综合性能的算法实例的多个副本，以进行并行的数据包分类操作。

3、然而，大多数包分类算法优先追求快速的查找速度，有时以牺牲长尾延迟和忽视总体性能稳定性为代价，这导致了查找数据包时间的性能波动显著，这主要体现在三个方面：首先，存在一个突出的长尾现象，即查找时间的95和99百分位数(p95和p99)明显高于均值。第二，查找时间存在较大的方差，表明整体性能稳定性较差。第三，在规则集偏斜度增加的情况下，性能波动加剧。高偏斜度是导致最坏情况性能的主要因素。因此，现有的包分类算法存在普遍性能最坏情况。这种情况表现为算法对某些数据包的查找时间显著延长。给定算法，虽然直观的多实例副本并行解决方案可以线性增加吞吐量，但仍然面临着由于单个算法实例不可避免的最坏情况而导致的性能波动问题。性能波动对网络应用的服务质量产生负面影响。

4、数据包分类是各种网络设备上的关键功能，它的主要任务是对到来的数

5、专利文献cn106598747a公开了一种网络数据包的并行处理方法及装置，涉及数据处理
，主要目的在于提高网络数据包的并行处理效率：设定网络会话对应的会话数据结构表项中，读写变量部分中单个变量的长度不大于中央处理器cpu的字长；当至少两个cpu核接收到同一个网络会话中的不同网络数据包时，所述cpu核获取所述网络会话对应的会话数据结构表项；根据所述网络数据包在所述cpu核中的执行情况，对所述会话数据结构表项中的读写变量部分进行原子操作修改。该专利技术观察到现存的数据包分类方法存在的最坏情况及其产生的原因，并在集成学习的启发之下，挖掘算法的不同实例之间存在的互补性以得到高效和稳定的性能。

技术实现思路

1、针对现有技术中的缺陷，本专利技术的目的是提供一种基于集成学习的数据包分类并行方法及系统。

2、根据本专利技术提供的一种基于集成学习的数据包分类并行方法，包括：

3、步骤s1：建立规则搜索成本模型，量化算法的不同实例之间的互补性；

4、步骤s2：使用遗传算法生成算法的不同实例的最佳组合方案，在找到满足要求的算法实例后，构建算法实例库；

5、步骤s3：构建数据包分类预测模型，从构建成的算法实例库中选择合适的算法实例完成数据包分类操作。

6、优选地，在所述步骤s1中：

7、提出基于规则角度的查找成本量化模型，衡量算法的不同实例之间的互补性，为了确定互补的算法实例，从规则角度出发，在考虑特定的算法实例时，确定产生最高搜索成本的规则子集，对于互补的算法实例，各自的高成本规则子集最少重叠；

8、空间划分步骤表示为树的内部节点，划分的子空间表示为叶节点，规则查找的成本从规则插入的角度进行建模，树结构中到达叶节点的深度表示查找规则所需的成本，算法在构建过程中确定来自搜索空间的最优参数配置，每种参数配置对应一个算法实例，在搜索最佳参数配置的过程中，添加额外的线程记录每个算法实例插入规则的时间开销，由此构建各个算法实例对应的规则查找成本模型，作为衡量算法不同实例的性能和互补性的数据基础。

9、优选地，在所述步骤s2中：

10、在给定规则查找成本量化模型之后，提出基于遗传算法的高效最优算法实例组合方法：

11、减少候选算法实例的数量：将排列问题简化为组合问题；过滤平均规则查找成本高于预设标准的算法实例；过滤内存使用量高于预设标准的算法实例；

12、找到一个算法实例组合方案，使得整体规则成本最小，抽象为以下公式：

13、

14、其中，ω代表总的组合方案空间，τ表示一个特定的组合方案，n是规则的数量，而cost[i][j]是指算法实例aii中规则j的搜索成本，ai是算法实例的缩写；

15、使用遗传算法处理规则集和算法实例组合，在遗传算法中，基于多个指标评估每个可行解的适应度，每个算法实例的整体性能用其平均规则成本表示，aii的平均规则成本存储在数组avgcost[i]中，采用avgcost[i]的倒数作为aii的适应度值fitness[i]，如公式(2)所示，较高的适应度值对应较低的平均成本，具有较高适应度值的算法实例被选中的机会较大，使用公式(3)计算选择aii的概率probability[i]，根据适应度值按降序对候选算法实例集合中的算法实例进行排序：

16、

17、

18、二维数组cost存储每个算法实例对应的规则搜索成本，cost[i][j]表示aii中规则j的搜索成本，计算每个算法实例的适应度和选择概率，表示有效候选算法实例的集合，n表示规则集中的总规则数；每个迭代轮次包括：候选算法实例的进化；算法实例库的更新和新组合方案的获取；评估确定是否满足终止条件。

19、优选地，候选算法实例的进化过程包括复制和交叉：采用轮盘赌算法确定每轮选择的算法实例，先生成一个从0到1的随机数，依次与每个算法实例的累积概率进行比较，概率超过了随机数，选择对应的算法实例，选择过程与公式(3)中定义的概率成正比；进行交叉：选定的两个算法实例，分别表示为aij和aik，结合形成一个新的ai′，其中ai′中每条规则的成本对应于这两个算法实例中较小的那个；算法的不同实例之间的互补性越大，新获得的算法实例ai′的成本就越低，计算ai′的适应度，记作curfitness；

20、算法实例库的更新和组合方案的获取：如果满足当前适应度值curfitness大于之前适应度值prefitness，表示当前交叉轮次已经产生了迄今为止的最佳结果，新的ai′被纳入考虑，从集合中移除之前的aij和aik，并插入ai′，计算ai′的选择概率并记录其算法实例组合方案；

21、确定算法是否满足终止条件：算法包含两个终止条件，当迭代次数达到阈值ρ时，算法停止执行，对迭代轮次数量设定上限；当两次连续迭代产生的适应度之间差异小于阈值ε时，算法终止；算法在满足上述任一条件时结束执行，获得中具有最高适应度的算法实例的组合方案，记为τ*并返回；...

【技术保护点】

1.一种基于集成学习的数据包分类并行方法，其特征在于，包括：

2.根据权利要求1所述的基于集成学习的数据包分类并行方法，其特征在于，在所述步骤S1中：

3.根据权利要求1所述的基于集成学习的数据包分类并行方法，其特征在于，在所述步骤S2中：

4.根据权利要求3所述的基于集成学习的数据包分类并行方法，其特征在于：

5.根据权利要求1所述的基于集成学习的数据包分类并行方法，其特征在于，在所述步骤S3中：

6.一种基于集成学习的数据包分类并行系统，其特征在于，包括：

7.根据权利要求6所述的基于集成学习的数据包分类并行系统，其特征在于，在所述模块M1中：

8.根据权利要求6所述的基于集成学习的数据包分类并行系统，其特征在于，在所述模块M2中：

9.根据权利要求8所述的基于集成学习的数据包分类并行系统，其特征在于：

10.根据权利要求6所述的基于集成学习的数据包分类并行系统，其特征在于，在所述模块M3中：

【技术特征摘要】

1.一种基于集成学习的数据包分类并行方法，其特征在于，包括：

2.根据权利要求1所述的基于集成学习的数据包分类并行方法，其特征在于，在所述步骤s1中：

3.根据权利要求1所述的基于集成学习的数据包分类并行方法，其特征在于，在所述步骤s2中：

4.根据权利要求3所述的基于集成学习的数据包分类并行方法，其特征在于：

5.根据权利要求1所述的基于集成学习的数据包分类并行方法，其特征在于，在所述步骤s3中：

...

【专利技术属性】
技术研发人员：钱诗友，张剑格，曹健，薛广涛，赵广，张亮，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人