监测数据恢复模型训练方法、恢复方法、设备及存储介质技术

技术编号:38323822 阅读:16 留言:0更新日期:2023-07-29 09:06
本发明专利技术公开了一种监测数据恢复模型训练方法、恢复方法、设备及存储介质,所述方法包括获取N轮历史测量事件数据,选取连续的K轮历史测量事件数据构建历史测量事件数据集,得到N-K+1个历史测量事件数据集;对前K

【技术实现步骤摘要】
监测数据恢复模型训练方法、恢复方法、设备及存储介质


[0001]本专利技术属于数据恢复
,尤其涉及一种基于实时事件的流式网络监测数据恢复模型训练方法(Real

Time Event

based Streaming Network Monitoring Matrix Filling,缩写为ResNMMF)、流式网络监测数据恢复方法、设备及存储介质。

技术介绍

[0002]网络监控是网络运行和管理的关键,它对于异常检测、网络路由规划、拥塞控制和网络故障排除等相关任务是必不可少的。然而,监测整个网络也是困难的,原因如下:
[0003]首先,对于一个包含N个节点的网络,在一轮测量中测量所有端到端源(Origin)

目的(Destination)对(即OD对)的时间复杂度为O(N2);当一个网络需要多轮测量时,累积的复杂性是不可接受的。
[0004]其次,网络测量不可避免地会带来额外的开销,这可能会影响网络系统的性能,从而导致观察者效应。可以减少用于网络监控的数据包,以减轻由观察者效应所带来的不可靠的测量结果。因此,通常采用一种只测量所有OD对的一个子集的稀疏采样机制。为了在一个测量轮中记录整个网络的稀疏采样网络监测数据,形成了一个稀疏网络监测矩阵(NMM),其行和列分别为原点和目的地。随着稀疏重建技术的进步,提出通过低秩矩阵补全的NMM恢复;然而,基于矩阵补全的方法侧重于单一的NMM,没有考虑时间动态,因此,恢复精度可能受损。最近的研究由按照时间顺序编排的一系列NMM,形成一个高阶阵列(亦称张量),并应用张量补全方法来恢复缺失的项,以提取更复杂的相关性,包括时间相关性。因此,基于张量的方法通常比基于矩阵的方法获得更好的精度。
[0005]有人提出了利用网络数据的低秩属性来恢复丢失的条目。基于矩阵补全的算法无法捕获时间动态,因此数据恢复精度不足。引入张量补全方法能更好地利用稀疏收集的网络监控数据中的隐式时空相关性。LTC(参见Xie K,Wang X,Wang X,et al.Accurate recovery of missing network measurement data with localized tensor completion[J].IEEE/ACM Transactions on Networking,2019,27(6):2222

2235.)通过局部敏感散列对张量进行拆分,构建多个具有强内相关性的低秩子张量,从而提高精度。Reshape

Align(参见Xie K,Peng C,Wang X,et al.Accurate recovery of internet traffic data under variable rate measurements[J].IEEE/ACM transactions on networking,2018,26(3):1137

1150.)提出用可变测量率重塑测量矩阵,并将它们组合成时间对齐的规则张量,以实现更实用和准确的缺失数据插补。张量补全的主要缺点是尽管精度很高,但计算复杂度很高。一些工作专注于使用GPU(即图形处理器)加速矩阵/张量完成。但是,仍然无法在毫秒级恢复丢失的条目。此外,GPU加速方法需要硬件支持并且不节能。
[0006]随着深度学习的进步,有人提出了基于神经网络的数据补全算法。DMF(参见Xue H J,Dai X,Zhang J,et al.Deep matrix factorization models for recommender systems[C]//IJCAI.2017,17:3203

3209.)提出使用神经网络来改进用户和项目嵌入以实现准确的推荐;DLMC(参见Fan J,Chow T.Deep learning based matrix completion[J].Neurocomputing,2017,266:540

549.)应用编码器

解码器架构来恢复丢失的条目;GAIN(参见Yoon J,Jordon J,Schaar M.Gain:Missing data imputation using generative adversarial nets[C]//International conference on machine learning.PMLR,2018:5689

5698.)表明生成对抗网络也是稀疏矩阵插补的潜在且强大的工具。为了充分利用神经网络的非线性表达能力探索非线性数据相关性,CoSTCo(参见Liu H,Li Y,Tsang M,et al.Costco:A neural tensor completion model for sparse tensors[C]//Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery&Data Mining.2019:324

334.)和NTC(参见Xie K,Lu H,Wang X,et al.Neural tensor completion for accurate network monitoring[C]//IEEE INFOCOM 2020

IEEE Conference on Computer Communications.IEEE,2020:1688

1697.)利用卷积神经网络(CNN)设计更好的交互函数来填充稀疏张量。然而,神经网络通常接受固定大小的历史数据的训练。如果没有高效和有效的更新算法,即使考虑在线学习策略,也无法支持实时数据恢复任务。
[0007]事实上,网络测量事件可以被视为一个元组,描述了该次测量的起点、终点、测量开始的时间、以及测量结果。目前的方案通常将这些事件转换为稀疏矩阵,或假设稀疏矩阵中观察到的条目同时到达,然后应用矩阵补全来恢复缺失的数据。张量补全算法的处理方式也是类似的。由于这些方法在批处理中的时间间隔内收集事件,忽略了事件数据的低延迟特性,将矩阵/张量补全方法称为基于批处理的网络监控。在基于流事件的网络监控系统中应用矩阵或张量补全存在计算浪费和高延迟问题。当事件不断到达时,NMM中的条目将被更改,尽管只有少数条目发生了变化,但矩阵/张量补全模型需要花费很长时间来重新训练,而不是仅仅计算这些变化。因此,目前基于矩阵的建模不适用于实时数据恢复任务、时间敏感的网络应用,如网络异常检测和自动网络故障排除,因为这些任务需要完整的NMM数据参与实时决策。
[0008]目前,没有其他算法能够以实时、逐事件处理的算法,实现在线数据恢复。
[0009]名词解释:流式是指测量事件以数据流的形式不断到来。

技术实现思路

[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种流式网络监测数据恢复模型训练方法,其特征在于,所述方法包括:获取N轮历史测量事件数据,其中每轮历史测量事件数据包括n个历史测量事件,每个历史测量事件包括源节点ID、目标节点ID、时间戳和测量结果;从N轮历史测量事件数据中选取连续的K轮历史测量事件数据构建一历史测量事件数据集,从而得到N-K+1个历史测量事件数据集;对每个所述历史测量事件数据集中的前K

1轮历史测量事件数据分别构建二分图,从而得到每个所述历史测量事件数据集的二分图序列;将每个所述历史测量事件数据集中的第K轮历史测量事件数据转换成目标矩阵;构建流式网络监测数据恢复模型,所述流式网络监测数据恢复模型包括上下文信息提取模块、事件编码模块和数据恢复模块;所述上下文信息提取模块、事件编码模块分别与数据恢复模块连接;以每个所述历史测量事件数据集的二分图序列作为上下文信息提取模块的输入,以对应历史测量事件数据集的第K轮历史测量时间数据作为事件编码模块的输入,以对应的目标矩阵作为模型输出,对所述流式网络监测数据恢复模型进行训练,得到目标流式网络监测数据恢复模型。2.根据权利要求1所述的流式网络监测数据恢复模型训练方法,其特征在于,对每个所述历史测量事件数据集中的前K

1轮历史测量事件数据分别构建二分图,具体包括:对于第k轮历史测量事件数据,在每个历史测量事件的源节点与目标节点之间创建一条无向边,所述无向边的取值为该历史测量事件的测量结果,由此得到第k轮历史测量事件数据的二分图;其中k=1,2,

,K

1。3.根据权利要求1所述的流式网络监测数据恢复模型训练方法,其特征在于,对所述流式网络监测数据恢复模型进行训练的具体实现过程包括:利用所述上下文信息提取模块对二分图序列进行特征提取,得到源节点上下文特征向量和目标节点上下文特征向量;利用所述事件编码模块对对应的第K轮历史测量事件数据进行特征提取,得到源节点状态向量和目标节点状态向量;利用所述数据恢复模块对源节点上下文特征向量和源节点状态向量、目标节点上下文特征向量和目标节点状态向量进行深度特征提取,得到第K轮历史测量事件数据的状态预测矩阵;根据所述状态预测矩阵和目标矩阵构建损失函数,以损失函数最小化为目标调整所述流式网络监测数据恢复模型的参数,实现模型训练。4.根据权利要求3所述的流式网络监测数据恢复模型训练方法,其特征在于,利用所述上下文信息提取模块对二分图序列进行特征提取,得到源节点上下文特征向量和目标节点上下文特征向量,具体包括:对于所述二分图序列中的每个二分图,根据二分图对应的源节点数量随机生成源节点初始嵌入矩阵根据二分图对应的目标节点数量随机生成目标节点初始嵌入矩阵其中,|S|为源节点数量,|D|为目标节点数量,dim为嵌入维度,R为实数空间;基于源节点初始嵌入矩阵和目标节点初始嵌入矩阵对二分图进行特征提取,得到
源节点因子矩阵和目标节点因子矩阵;对所述二分图序列的所有源节点因子矩阵进行特征提取,得到源节点上下文特征向量A
ctx
;对所述二分图序列的所有目标节点因子矩阵进行特征提取,得到目标节点上下文特征向量B
ctx
,具体公式为:A
ctx
=GRU({S1,S2,

,S
(K

2)
,S
(K

1)
})B
ctx
=GRU({D1,D2,

,D
(K

2)
,D
(K

1)
})其中,S1,S2,

,S
(K

2)
,S
(K

1)
分别为二分图G1,G2,

,G
(K

2)
,G
(K

1)
的源节点因子矩阵,D1,D2,

,D
(K

2)
,D
(K

1)
分别为二分图G1,G2,

,G
(K

2)
,G
(K

1)
的目标节点因子矩阵,GRU表示循环神经网络。5.根据权利要求4所述的流式网络监测数据恢复模型训练方法,其特征在于,基于源节点初始嵌入矩阵和目标节点初始嵌入矩阵对二分图进行特征提取,得到源节点因子矩阵和目标节点因子矩阵,具体包括:对于二分图的任意边(s,d),取源节点初始嵌入矩阵的第s行作为初始嵌入特征s
(0)
,取目标节点初始嵌入矩阵的第d行作为初始嵌入特征d
(0)...

【专利技术属性】
技术研发人员:梁伟黎钰晖谢松佑蔡佳洪陈琳
申请(专利权)人:湖南科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1