一种基于掩码自编码器的日志数据压缩和解压缩方法技术

技术编号：43256917 阅读：23 留言：0更新日期：2024-11-08 20:38

本发明专利技术属于计算机技术领域，具体涉及一种基于掩码自编码器的日志数据压缩和解压缩方法。本发明专利技术包括，根据原始起源图划分的子图构建邻接矩阵、节点特征矩阵和行为权重矩阵；对节点特征矩阵进行掩码处理，将邻接矩阵、行为权重矩阵和经过掩码处理的节点特征矩阵送入编码器，编码器输出表征向量通过解码器得到重构起源图；通过比较重构起源图与原始起源图计算重构误差，迭代更新掩码自编码器模型的训练参数；利用训练好的模型的编码器压缩日志数据，利用训练好的模型的解码器解压缩。本发明专利技术通过引入掩码自编码器模型对日志数据进行压缩，可以大幅降低传输所需的带宽，同时保证数据在经过压缩与解压后能够保持足够的信息量，以供后续的分析和处理。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机，具体涉及一种基于掩码自编码器的日志数据压缩和解压缩方法。

技术介绍

1、在现代信息技术环境中，日志数据扮演着至关重要的角色，它不仅记录了系统的运行状态，还为故障排查、性能优化和安全审计提供了宝贵的信息。然而，随着系统复杂性的增加和运营规模的扩大，日志数据量也呈现出爆炸性的增长。大规模日志数据的传输、存储和分析，给网络和存储资源带来了沉重的负担。

2、特别是在分布式系统、云计算环境或大数据处理平台中，日志数据需要从各个节点汇总到中央服务器进行分析。在这个过程中，带宽资源经常成为制约数据传输效率的瓶颈。传统的数据压缩技术虽然可以在一定程度上减小日志数据的大小，但在面对海量、高频率生成的日志数据时，其压缩效率和解压速度往往难以满足实时监控和快速响应的需求。

3、近年来，深度学习领域中的自编码器技术为数据压缩提供了新的思路。特别是掩码自编码器，它结合了自编码器的无监督学习特性和掩码机制的数据增强能力，能够在学习数据特征的同时，更加关注数据的关键部分，从而提升压缩和解压缩的效率。

4、在日志数据分析领域，尽管已有一些基于机器学习和深度学习的方法用于异常检测、预测等任务，但将深度学习技术应用于日志数据的压缩与解压缩是一个新的研究方向。

技术实现思路

1、本专利技术的目的在于解决大规模日志数据传输的带宽消耗以及现有的数据压缩技术在应对实时大规模日志数据时压缩效率和解压缩速度难以满足实时监控和快速响应的需求的问题，并提出一种基于掩码自编码器

2、为了达到上述目的，本专利技术提供的技术方案为：一种基于掩码自编码器的日志数据压缩和解压缩方法，包括：

3、实时采集日志数据，根据日志数据构建原始起源图，将原始起源图以固定的时间窗口划分成固定大小的子图，根据子图构建邻接矩阵、节点特征矩阵和行为权重矩阵；

4、构建掩码自编码器模型，对节点特征矩阵进行掩码处理，将邻接矩阵、行为权重矩阵和经过掩码处理的节点特征矩阵送入掩码自编码器模型的编码器，掩码自编码器模型的解码器接收编码器输出的表征向量，得到重构起源图；

5、重复将原始起源图重构为重构起源图，通过比较重构起源图与原始起源图计算重构误差，迭代更新掩码自编码器模型的训练参数，当重构误差达到预设值时完成掩码自编码器模型的训练；

6、将待压缩的日志数据的邻接矩阵、节点特征矩阵和行为权重矩阵输入训练好的掩码自编码器模型的编码器中，输出表征向量，即压缩后的日志数据；

7、将压缩后的日志数据输入训练好的掩码自编码器模型的解码器，得到重构起源图，将重构起源图以向量形式存储，完成日志数据的解压缩。

8、进一步的，所述根据子图构建邻接矩阵、节点特征矩阵和行为权重矩阵，包括：

9、创建一个大小为n×n的零矩阵，其中n为子图中的节点数，如果子图中的节点 i指向节点 j存在有向边，则零矩阵的第 i行第 j列的元素为1，否则为0，遍历子图中的每一条有向边得到邻接矩阵；

10、根据预设的子图中每个节点的节点属性，为子图中的所有节点生成特征向量，创建一个大小为n×f×d的特征矩阵，其中n为子图中的节点数，f为节点属性的数量，d为所有特征向量中最高的维度，将每个节点对应的特征向量按照节点顺序填充到特征矩阵中，对维度小于d的特征向量的尾部作0填充，得到节点特征矩阵；

11、创建一个大小为n×n的零矩阵，其中n为子图中的节点数，遍历子图中的每一条有向边，根据有向边所代表的操作关系重要程度读取对应的权重值，如果子图中的节点i指向节点j存在有向边，则将对应的权重值填充到零矩阵的第i行第j列，得到行为权重矩阵。

12、进一步的，所述根据预设的子图中每个节点的节点属性，为子图中的所有节点生成特征向量，包括：读取子图中每个节点的节点属性，对表示类型的节点属性使用one-hot编码生成类型特征向量，对文本类的节点属性使用经过预训练的bert生成文本特征向量。

13、进一步的，所述掩码自编码器模型包括编码器和解码器，所述编码器采用图注意力网络，所述解码器采用transformer网络。

14、进一步的，所述对节点特征矩阵进行掩码处理，包括：在子图中随机选择部分节点，在节点特征矩阵中将所述部分节点对应的特征向量以掩码标记mask替代。

15、本专利技术与现有技术相比，其显著优点为：1.解决了大规模日志数据传输过程中的带宽问题，提高传输效率，降低存储和网络资源的消耗，提供了更高效、更经济的日志数据处理方案。2.相比较传统压缩技术，本专利技术的压缩技术更具有实时性，能更好满足对日志数据的实时处理需求，拥有更高的压缩效率以及更低的压缩与解压缩性能开销。

本文档来自技高网...

【技术保护点】

1.一种基于掩码自编码器的日志数据压缩和解压缩方法，其特征在于，所述基于掩码自编码器的日志数据压缩和解压缩方法，包括：

2.根据权利要求1所述的基于掩码自编码器的日志数据压缩和解压缩方法，其特征在于，所述根据子图构建邻接矩阵、节点特征矩阵和行为权重矩阵，包括：

3.根据权利要求2所述的基于掩码自编码器的日志数据压缩和解压缩方法，其特征在于，所述根据预设的子图中每个节点的节点属性，为子图中的所有节点生成特征向量，包括：读取子图中每个节点的节点属性，对表示类型的节点属性使用one-hot编码生成类型特征向量，对文本类的节点属性使用经过预训练的BERT生成文本特征向量。

4.根据权利要求1所述的基于掩码自编码器的日志数据压缩和解压缩方法，其特征在于，所述掩码自编码器模型包括编码器和解码器，所述编码器采用图注意力网络，所述解码器采用Transformer网络。

5.根据权利要求1所述的基于掩码自编码器的日志数据压缩和解压缩方法，其特征在于，所述对节点特征矩阵进行掩码处理，包括：在子图中随机选择部分节点，在节点特征矩阵中将所述部分节点对应的特征向量以掩码标记MASK替代。

...

【技术特征摘要】

1.一种基于掩码自编码器的日志数据压缩和解压缩方法，其特征在于，所述基于掩码自编码器的日志数据压缩和解压缩方法，包括：

3.根据权利要求2所述的基于掩码自编码器的日志数据压缩和解压缩方法，其特征在于，所述根据预设的子图中每个节点的节点属性，为子图中的所有节点生成特征向量，包括：读取子图中每个节点的节点属性，对表示类型的节点属性使用one-hot...

【专利技术属性】
技术研发人员：顾国民，洪啸羿，陈铁明，宋琪杰，仇学博，朱志凌，朱添田，吕明琪，陈波，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人