一种流量智适应的大数据流处理方法技术

技术编号:38004666 阅读:14 留言:0更新日期:2023-06-30 10:19
本发明专利技术涉及大数据流处理的技术领域,揭露了一种流量智适应的大数据流处理方法,所述方法包括:对预处理后的网络流量进行一次特征提取,对提取得到的网络流量一次关联特征进行二次特征提取;根据网络流量二次加权特征判断当前流量的流量模式;对于大流量模式的网络流量,筛选得到当前流量源地址与目的地址之间的最短跳数路径集合;对最短跳数路径集合进行真实时延探测,按照真实时延对最短跳数路径选择概率分布化处理;对当前大流量模式网络流量进行采样,按照不同最短路径的选择概率进行路径选择以及路由转发。本发明专利技术通过对流量模式进行识别,进而对不同流量模式的网络流量采用不同的路由转发方案,提高通信链路的综合利用率,避免通信阻塞。避免通信阻塞。避免通信阻塞。

【技术实现步骤摘要】
一种流量智适应的大数据流处理方法


[0001]本专利技术涉及大数据流的
,尤其涉及一种流量智适应的大数据流处理方法。

技术介绍

[0002]近年来,随着我国现代化的移动互联网和 5G 快速兴起和发展,各种移动互联网的应用也随之迅速地普及到千家万户,网络已经成了现代社会人们在工作和日常生活中一个不可或缺的重要工具。移动互联网的规模近几年增长尤其迅速,网络中承载信息业务也越来越丰富,大型互联网企业越来越开始高度重视自己互联网数据中心的建设和发展。随着大量网络流量被汇合到互联网数据中心进行处理,数据中心中的网络流量也表现出快速增长的形势。数据中心汇聚了企业大量核心业务网络流量,随着不同时段具有不同的流量模式,导致服务器产生较大的负载差异,严重影响用户体验。针对该问题,本专利技术提出一种流量智适应的大数据流处理方法。

技术实现思路

[0003]有鉴于此,本专利技术提供一种流量智适应的大数据流处理方法,目的在于:1)根据用户对产品的不同操作行为所产生网络流量之间的关联性确定不同网络流量之间的一次关联特征,并结合注意力机制为不同网络流量进行赋权,根据计算得到的网络流量二次加权特征判断当前流量的流量模式,当网络流量传输速率与链路容量的比值大于阈值时,则将该网络流量判断为大流量模式,进而对不同流量模式的网络流量采用不同的路由转发方案;2)对于大流量模式的网络流量,计算当前流量源地址与目的地址之间的最短路径,并基于最短路径变异得到若干最短路径,构成最短跳数路径集合,并利用多种时延探测包得到每条路径的真实时延,按照真实时延对最短跳数路径选择概率分布化处理,得到不同最短路径的选择概率,对当前大流量模式网络流量进行采样,按照不同最短路径的选择概率进行路径选择以及路由转发,实现对大流量模式的网络流量实现均衡化处理,提高通信链路的综合利用率,避免通信阻塞。
[0004]实现上述目的,本专利技术提供的一种流量智适应的大数据流处理方法,包括以下步骤:S1:采集数据中心的网络流量,并对采集的网络流量进行预处理;S2:对预处理后的网络流量进行一次特征提取,得到网络流量一次关联特征;S3:对提取得到的网络流量一次关联特征进行二次特征提取得到网络流量二次加权特征,其中结合注意力机制的特征提取方式为所述二次特征提取的主要实施方式;S4:根据计算得到的网络流量二次加权特征判断当前流量的流量模式,若当前流量为小流量模式则不进行均衡化处理,否则进行均衡化处理;S5:对于大流量模式的网络流量,计算当前流量源地址与目的地址之间的距离,筛选得到最短跳数路径集合;
S6:对筛选后的最短跳数路径集合进行时延探测,计算路径的真实时延,并按照真实时延对最短跳数路径选择概率分布化处理,得到不同最短路径的选择概率;S7:对当前大流量模式网络流量进行采样,按照不同最短路径的选择概率进行路径选择以及路由转发,完成网络流量的均衡化处理。
[0005]作为本专利技术的进一步改进方法:可选地,所述S1步骤中对所采集的网络流量进行预处理,包括:采集数据中心的网络流量,其中网络流量为用户访问产品页面过程中所产生的流量数据,包括用户IP地址、端口号、协议、用户操作行为数据、数据包大小以及传输字节数;对所采集的网络流量进行预处理,其中预处理流程为:S11:过滤无关的网络流量数据,包括用户IP地址、端口号以及协议;S12:利用one

hot方法将用户操作行为转换为数字编码,并提取每个用户操作行为所产生数据包大小以及传输字节数,在本专利技术实施例中,用户操作行为包括用户操作所产生的行为标识以及用户操作时间戳信息,则用户操作行为的传输字节数为:;其中:表示用户操作行为的传输字节数,表示第种用户操作行为的数字编码结果;表示用户操作行为的结束时刻,表示用户操作行为的开始时刻,表示交换机端口在时刻统计的传输字节数;S13:对每个用户操作行为所产生数据包大小进行归一化处理,归一化处理公式为:;其中:表示用户操作行为所产生数据包大小;表示预设数据包大小的最小值,表示预设数据包大小的最大值;S14:构成预处理后的网络流量:;其中:表示用户操作行为的数字编码结果种类数,表示用户操作行为的预处理后网络流量。
[0006]可选地,所述S2步骤中对预处理后的网络流量进行一次特征提取,包括:对预处理后的网络流量进行一次特征提取,得到网络流量一次关联特征,其中预处理后网络流量的一次特征提取流程为:S21:构建待特征提取的网络流量向量形式:;
;其中:表示网络流量中传输字节数的向量形式,表示网络流量中数据包大小的向量形式;S22:对网络流量向量形式中的每个值进行规范化处理:;;其中:表示极小的正数,将其设置为0.0001;表示的均值,表示的标准差,表示的均值,表示的标准差;为的规范化处理结果,为的规范化处理结果;得到规范化处理后的网络流量向量形式:;;S23:将两种网络流量向量形式依次进行如下处理:;;;;其中:,表示规范化处理后网络流量向量形式的网络流量一次关联特征;表示激活函数,在本专利技术实施例中,将其设置为ReLU函数;表示权重参数,表示偏置参数。在本专利技术实施例中,通过获取若干组网络流量向量形式构成训练集,基于网络流量一次关联特征与规范化处理后的网络流量向量形式的相关性,以训练集中两者相关性达到最大为目标构建目标函数,进而采用牛顿迭代法对目标函数进行迭代,得到对应的权重参数以及偏置参数结果。
[0007]可选地,所述S3步骤中对提取得到的网络流量一次关联特征进行二次特征提取,包括:对提取得到的网络流量一次关联特征进行二次特征提取,得到网络流量二次加权特征,在本专利技术实施例中,结合注意力机制的特征提取方式为所述二次特征提取的主要实
施方式,其中二次特征提取流程为:S31:分别提取网络流量一次关联特征中任意网络流量的特征值,其中预处理后网络流量中在网络流量一次关联特征中的特征值分别为,表示网络流量一次关联特征中的第个值,表示网络流量一次关联特征中的第个值;S32:计算任意特征值的注意力机制权重:;;其中:表示的注意力机制权重,表示的注意力机制权重;S33:构建网络流量二次加权特征:;其中:,表示规范化处理后网络流量向量形式的网络流量二次加权特征。
[0008]可选地,所述S4步骤中根据计算得到的网络流量二次加权特征判断当前流量的流量模式,包括:根据计算得到的网络流量二次加权特征判断当前流量的流量模式,其中对预处理后网络流量的流量模式判断公式为:的流量模式判断公式为:;其中:表示预处理后网络流量的流量模式判断结果;B表示链路容量,表示结合网络流量注意力机制权重的网络流量传输速率,表示网络流量传输速率与链路容量的比值。在本专利技术实施例中,对小流量模式的网络流量直接进行最短路由转发处理,即选取网络跳数最小的路由进行转发。
[0009]可选地,所述S5步骤中对大流量模式的网络流量计算当前流量源地址与目的地址
之间的距离,筛选得到最短跳数路径集合,包括:对大流量模式的网络流量计算当前流量源地址与目的地址之间的距离,筛选得到最短跳数路径集合,其中大流量模式的网络流量源地址为,目的地本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种流量智适应的大数据流处理方法,其特征在于,所述方法包括:S1:采集数据中心的网络流量,并对采集的网络流量进行预处理;S2:对预处理后的网络流量进行一次特征提取,得到网络流量一次关联特征;S3:对提取得到的网络流量一次关联特征进行二次特征提取得到网络流量二次加权特征;S4:根据计算得到的网络流量二次加权特征判断当前流量的流量模式,若当前流量为小流量模式则不进行均衡化处理,否则进行均衡化处理;S5:对于大流量模式的网络流量,计算当前流量源地址与目的地址之间的距离,筛选得到最短跳数路径集合;S6:对筛选后的最短跳数路径集合进行时延探测,计算路径的真实时延,并按照真实时延对最短跳数路径选择概率分布化处理,得到不同最短路径的选择概率;S7:对当前大流量模式网络流量进行采样,按照不同最短路径的选择概率进行路径选择以及路由转发,完成网络流量的均衡化处理。2.如权利要求1所述的一种流量智适应的大数据流处理方法,其特征在于,所述S1步骤中对所采集的网络流量进行预处理,包括:采集数据中心的网络流量,其中网络流量为用户访问产品页面过程中所产生的流量数据,包括用户IP地址、端口号、协议、用户操作行为数据、数据包大小以及传输字节数;对所采集的网络流量进行预处理,其中预处理流程为:S11:过滤无关的网络流量数据,包括用户IP地址、端口号以及协议;S12:利用one

hot方法将用户操作行为转换为数字编码,并提取每个用户操作行为所产生数据包大小以及传输字节数,则用户操作行为的传输字节数为:;其中:表示用户操作行为的传输字节数,表示第种用户操作行为的数字编码结果;表示用户操作行为的结束时刻,表示用户操作行为的开始时刻,表示交换机端口在时刻统计的传输字节数;S13:对每个用户操作行为所产生数据包大小进行归一化处理,归一化处理公式为:;其中:表示用户操作行为所产生数据包大小;表示预设数据包大小的最小值,表示预设数据包大小的最大值;S14:构成预处理后的网络流量: ;其中:
表示用户操作行为的数字编码结果种类数,表示用户操作行为的预处理后网络流量。3.如权利要求2所述的一种流量智适应的大数据流处理方法,其特征在于,所述S2步骤中对预处理后的网络流量进行一次特征提取,包括:对预处理后的网络流量进行一次特征提取,得到网络流量一次关联特征,其中预处理后网络流量的一次特征提取流程为:S21:构建待特征提取的网络流量向量形式:;;其中:表示网络流量中传输字节数的向量形式,表示网络流量中数据包大小的向量形式;S22:对网络流量向量形式中的每个值进行规范化处理: ;;其中:表示极小的正数,将其设置为0.0001;表示的均值,表示的标准差,表示的均值,表示的标准差;为的规范化处理结果,为的规范化处理结果;得到规范化处理后的网络流量向量形式:;;S23:将两种网络流量向量形式依次进行如下处理:;;;;其中:,表示规范化处理后网络流量向量形式的网络流量一次关联特征;表示激活函数;
表示权重参数,表示偏置参数。4.如权利要求3所述的一种流量智适应的大数据流处理方法,其特征在于,所述S3步骤中对提取得到的网络流量一次关联特征进行二次特征提取,包括:对提取得到的网络流量一次关联特征进行二次特征提取,得到网络流量二次加权特征,其中二次特征提取流程为:S31:分别提取网络流量一次关联特征中任意网络流量的特征值,其中预处理后网络流量中在网络流量一次关联特征中的特征值分别为,表示网络流量一次关联特征中的第个值,表示网络流量一次关联特征中的第个值;S32:计算任意特征值的注意力机制权重:;;其中:表示的注意力机制权重,表示的注意力机制权重;S33:构建网络流量二次加权特征:;其中:,表示规范化处理后网络流量向量形式的网络流量二次加权特征。5.如权利要求4所述的一种流量智适应的大数据流处理方法,其特征在于,所述S4步骤中根据计算得到的网络流量二次加权特征判断当前流量的流量模式,包括:根据计算得到的网络流量二次加权特征判断当前流量的流量模式,其中对预处...

【专利技术属性】
技术研发人员:胡鹏飞贺雪飞周涛
申请(专利权)人:湖南承希科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1