一种基于信息冗余度的调用链数据压缩方法及系统技术方案

技术编号：42878025 阅读：21 留言：0更新日期：2024-09-30 15:02

本发明专利技术公开了一种基于信息冗余度的调用链数据压缩方法及系统，方法包括：针对收集的调用链数据，采用KMeans算法提取相似数据，将所述调用链数据中的数据点分组，得到各个聚类组；其中，同一聚类组内的数据相似度高，不同聚类组间的数据相似度低；采用基于层次聚类的离线尾部抽样策略所述聚类组进行抽样处理，输出结构化文件；采用无损压缩的方式对所述结构化文件进行无损压缩处理，完成对所述调用链数据的压缩。本发明专利技术针对调用链数据的特性，结合了有损压缩的采样思想，在保持数据分析价值的基础上大幅减少了压缩后文件的大小和存储负担，提高了效率和实时性，能够保证数据完整性并强化泛化能力，可广泛应用于计算机技术领域。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，尤其是一种基于信息冗余度的调用链数据压缩方法及系统。

技术介绍

1、在当今的分布式系统环境中，一个单一的用户请求可能会激活跨越多个服务的操作序列，这些服务往往分散在各个服务器或计算节点上。这种复杂的服务交互被精细地记录在调用链数据中，或者称作跟踪数据，它们详细地跟踪了每个服务调用的时间戳、执行路径、响应时长，以及遇到的任何错误。这些数据集合起来，形成了处理请求的全面“轨迹”，为从请求发起到结束的整个流程提供了透明的视图。

2、随着分布式系统的正确性和性能问题愈发凸显，过去十年里，端到端跟踪技术已经成为解决这些问题的关键工具。这项技术不仅可以精确地建模系统负载、资源使用和时间序列，还能实时地检测异常请求，为系统的稳定性监控和故障诊断提供了坚实的支撑。其重要性在工业界得到了认可，标准化工作正在进行，且在多个企业和开发框架中得到了应用。在如今这个技术不断演进的生态系统中，端到端跟踪提供的一致性视图成为了洞察系统跨越各种组件、层次、机器和管理域复杂交互的关键。

3、然而，随着系统规模的扩展和微服务架构的普及，调用链数据的记录变得更加关键，同时也更加具有挑战性。这些数据不仅对于系统的连续运行、快速故障定位和性能监控至关重要，而且随着系统复杂性的增加，数据的体量也呈现出指数级的增长。这样的增长对数据存储、处理和分析提出了前所未有的挑战，迫切需要创新性的技术解决方案来应对。因此，开发有效的调用链数据压缩方法以降低存储成本并提高处理效率变得迫在眉睫。

4、随着信息技术的发展，分布式系统尤

5、现有的文本压缩技术主要分为两类

6、(1)无损压缩技术：无损压缩技术保证数据经压缩后能完全恢复到原始状态，常见算法包括：

7、熵编码方法：如huffman编码和算术编码，这些方法基于数据的概率模型来优化编码长度，适用于各种数据类型，包括文本和图像等。

8、字典编码方法：如gz ip和l zma，通过建立字典来识别并替换重复数据序列，广泛应用于文件压缩。

9、预测编码方法：如ppmd和deepzip，依赖历史数据来预测未来数据，然后对预测结果进行编码。

10、(2)有损压缩技术：有损压缩技术在允许丢失部分数据的前提下提供更高的压缩比，常见的办法有：

11、均匀随机采样：简化数据集，但可能忽略数据的潜在价值，导致关键信息丢失。

12、基于特征的有偏采样：根据数据的“趣味性”或信息丰富度进行选择性采样，更适合动态和不断变化的调用链数据类型。

13、对于上述相关技术，具有以下缺点：

14、(1)无损压缩技术的限制：尽管无损压缩技术能够保持数据的完整性，它们通常面临以下挑战：

15、效率低下：在处理大量结构化数据时，如调用链数据，现有的无损压缩算法往往不能有效处理数据中的冗余信息，导致压缩比和处理速度受限。复杂性高：高效的无损压缩算法如算术编码需要较高的计算资源，这在资源受限或需要快速响应的环境中不实用。泛化能力差：预测编码方法依赖于对历史数据的分析，而这些方法训练的模型泛化能力有限，面对多变的数据分布时可能效果不佳。

16、(2)有损压缩技术的缺陷：有损压缩技术虽然能提高数据处理的效率，但存在以下问题：数据丢失：采样等有损压缩方法通过舍弃部分数据以降低存储需求，但这种方法往往难以保证关键数据的完整性，可能导致重要信息的丢失。低覆盖率：均匀随机采样技术无法有效捕捉到异常或罕见的执行路径，这对于故障诊断和系统性能优化尤为重要。配置复杂：高级的有损压缩技术需要复杂的配置和调优，对于动态变化的系统环境，这种方法的适应性和灵活性不足。

技术实现思路

1、有鉴于此，本专利技术实施例提供一种高效且实时性高的，基于信息冗余度的调用链数据压缩方法及系统，以保证数据完整性并强化泛化能力。

2、本专利技术实施例的一方面提供了一种基于信息冗余度的调用链数据压缩方法，包括以下步骤：

3、针对收集的调用链数据，采用kmeans算法提取相似数据，将所述调用链数据中的数据点分组，得到各个聚类组；其中，同一聚类组内的数据相似度高，不同聚类组间的数据相似度低；

4、采用基于层次聚类的离线尾部抽样策略所述聚类组进行抽样处理，输出结构化文件；

5、采用无损压缩的方式对所述结构化文件进行无损压缩处理，完成对所述调用链数据的压缩。

6、可选地，所述针对收集的调用链数据，采用kmeans算法提取相似数据，将所述调用链数据中的数据点分组，得到各个聚类组，包括以下步骤：

7、通过opente lemetry框架收集微服务的调用链数据，经由一个networkx库函数所构建的图生成单元进行处理，得到对应的有向图；其中，所述有向图用于表征调用链数据中各服务组件间的调用关系；

8、通过节点向量化单元应用node2vec算法对所述有向图中的节点进行处理，将图结构中的节点数据转换为向量形式；

9、通过标准化处理单元采用标准化工具对向量化的节点数据进行归一化处理，得到标准化的数据流；

10、通过特性选择单元对所述标准化的数据流进行特征选择，得到目标特征集；

11、通过聚类处理单元实施kmeans算法进行数据点的聚类，将数据划分为多个不同的聚类簇，每个所述聚类簇带有对应的簇标签。

12、可选地，所述采用基于层次聚类的离线尾部抽样策略所述聚类组进行抽样处理，输出结构化文件，包括以下步骤：

13、计算每个kmeans聚类簇在整体数据集中的相对比例，确定从每个聚类簇中所需抽取的样本数量；

14、对每个kmeans聚类内部的数据，利用scipy库中的l inkage函数计算层次聚类的链接矩阵，并使用sk learn库的agglomerat ivecl uster ing函数执行层次聚类算法，构建树状结构，利用树状结构的纯度原理将相似性高的数据点放置于同一分支，得到层次聚类结果；

15、根据所述层次聚类结果，从各子簇中抽取样本，完成采样；

16、完成采样之后，通过sk learn库的s i l houette_score函数对每一个聚类簇计算轮廓系数，以度量聚类质量；

17、将所有抽取到的样本进行去重处理后，整合到一个新的数据结构中，输出得到所述结构化文件。

18、可选地，所述根据所述层次聚类结果，从各子簇中抽取样本，具体为：

19、对建立的树状结构从根节点开始随机遍历各个子节点直到叶子节点并进行采样。

20、可选地，所述计算轮本文档来自技高网...

【技术保护点】

1.一种基于信息冗余度的调用链数据压缩方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于信息冗余度的调用链数据压缩方法，其特征在于，所述针对收集的调用链数据，采用KMeans算法提取相似数据，将所述调用链数据中的数据点分组，得到各个聚类组，包括以下步骤：

3.根据权利要求1所述的一种基于信息冗余度的调用链数据压缩方法，其特征在于，所述采用基于层次聚类的离线尾部抽样策略所述聚类组进行抽样处理，输出结构化文件，包括以下步骤：

4.根据权利要求3所述的一种基于信息冗余度的调用链数据压缩方法，其特征在于，所述根据所述层次聚类结果，从各子簇中抽取样本，具体为：

5.根据权利要求3所述的一种基于信息冗余度的调用链数据压缩方法，其特征在于，

6.根据权利要求1所述的一种基于信息冗余度的调用链数据压缩方法，其特征在于，所述采用无损压缩的方式对所述结构化文件进行无损压缩处理，完成对所述调用链数据的压缩，包括以下步骤：

7.根据权利要求1-6中任一项所述的一种基于信息冗余度的调用链数据压缩方法，其特征在于，所述方法还包括以下步骤：

8.一种基于信息冗余度的调用链数据压缩系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括处理器以及存储器；

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，所述程序被处理器执行实现如权利要求1至7中任一项所述的方法。

...

【技术特征摘要】

1.一种基于信息冗余度的调用链数据压缩方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于信息冗余度的调用链数据压缩方法，其特征在于，所述针对收集的调用链数据，采用kmeans算法提取相似数据，将所述调用链数据中的数据点分组，得到各个聚类组，包括以下步骤：

4.根据权利要求3所述的一种基于信息冗余度的调用链数据压缩方法，其特征在于，所述根据所述层次聚类结果，从各子簇中抽取样本，具体为：

5.根据权利要求3所述的一...

【专利技术属性】
技术研发人员：陈鹏飞，俞泽斌，李民，张涛，张传富，
申请(专利权)人：中山大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人