超高维数据的精度矩阵估计方法、设备及存储介质技术

技术编号：43066046 阅读：12 留言：0更新日期：2024-10-22 14:43

本发明专利技术公开了一种超高维数据的精度矩阵估计方法、设备及存储介质，其中方法包括：获取个样本数据形成维度为的样本矩阵；计算样本矩阵的样本协方差矩阵，根据样本协方差矩阵得到样本矩阵的总体协方差矩阵估计；基于总体协方差矩阵估计对个变量进行总相关强度统计和分组，得到显著相关变量子集和非显著相关变量子集；确定显著相关变量子集对应的第一近似精度矩阵和非显著相关变量子集对应的第二近似精度矩阵，根据第一近似精度矩阵和第二近似精度矩阵得到个样本数据的估计精度矩阵。采用本发明专利技术的方法，不仅大幅减少了模型复杂性和计算负荷，而且还保持了模型的精确性和稳定。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及大数据分析，特别是涉及一种超高维数据的精度矩阵估计方法、设备及存储介质。

技术介绍

1、当前的大数据分析领域，尤其是基因组学、金融建模和社交网络分析，研究人员经常面临从超高维数据集中估计精确矩阵的挑战。这些数据集的特征在于变量数量远远超过样本数量，体现了“维数灾难”，使得计算复杂且大大影响模型估计的稳定性和准确性。在资源有限和严格的计算时间要求下，如何有效、准确地估计精确矩阵对于推动科学研究和技术创新至关重要。

2、传统方法如图形lasso（graphical lasso）及其变种虽然理论深厚且广泛应用于各种统计模型，但在超高维数据环境下依然存在实际局限。这些方法往往需要大量计算资源，包括较长的计算时间和显著的内存使用，在变量数极多时，其估计结果的稳定性和准确性受到影响。

3、现有的r语言软件包如glasso和huge在某些特定情境下表现出色，尤其是在变量数中等或计算资源要求不高时。然而，当面对极高维数据（如基因表达分析或复杂网络模型）时，这些方法常遇到收敛缓慢、结果不稳定或估计精度不足的问题。

技术实现思路

1、本专利技术实施例旨在提供一种超高维数据的精度矩阵估计方法、设备及存储介质，以解决现有技术中超高维数据的精度矩阵估计存在计算时间长、资源消耗多、估计结果不稳定或精度不足等问题。

2、为解决上述技术问题，本专利技术实施例提供以下技术方案：

3、根据本专利技术的一方面，提供一种超高维数据的精度矩阵估计方法，所述方法包括：

4、获取个样本数据形成维度为的样本矩阵，其中，每一所述样本数据包括个变量的观测值，且远大于；

5、计算所述样本矩阵的样本协方差矩阵，根据所述样本协方差矩阵得到所述样本矩阵的总体协方差矩阵估计；

6、基于所述总体协方差矩阵估计对所述个变量进行总相关强度统计和分组，得到显著相关变量子集和非显著相关变量子集；

7、确定所述显著相关变量子集对应的第一近似精度矩阵和所述非显著相关变量子集对应的第二近似精度矩阵，根据所述第一近似精度矩阵和所述第二近似精度矩阵得到所述个样本数据的估计精度矩阵。

8、可选地，所述根据所述样本协方差矩阵得到所述样本矩阵的总体协方差矩阵估计包括：

9、对所述样本协方差矩阵基于下式进行自适应阈值处理，得到所述样本矩阵的总体协方差矩阵估计：

10、

11、其中，为自适应阈值。

12、可选地，所述自适应阈值的计算公式如下：

13、

14、其中，为常数，是变量间去均值乘积的方差估计。

15、可选地，所述基于所述总体协方差矩阵估计对所述个变量进行总相关强度统计和分组，得到显著相关变量子集和非显著相关变量子集包括：

16、基于所述总体协方差矩阵估计，统计所述个变量中每一变量与其他变量的总相关强度；

17、将所述总相关强度大于或等于预设的相关强度阈值的变量筛选出来形成显著相关变量子集，将所述总相关强度小于所述相关强度阈值的变量筛选出来形成非显著相关变量子集。

18、可选地，所述个样本数据的估计精度矩阵=。

19、可选地，所述第一近似精度矩阵的计算方法为：

20、从所述样本矩阵中筛选出所述显著相关变量子集中各变量对应的列形成第一子样本矩阵；

21、计算所述第一子样本矩阵的第一子样本协方差矩阵；

22、使用预设的正则化方法对所述第一子样本协方差矩阵进行正则化处理，得到所述第一近似精度矩阵。

23、可选地，所述第二近似精度矩阵的计算方法为：

24、从所述样本矩阵中筛选出所述非显著相关变量子集中各变量对应的列形成第二子样本矩阵；

25、计算所述第二子样本矩阵的第二子样本协方差矩阵；

26、计算所述第二子样本协方差矩阵的逆矩阵，并提取所述逆矩阵的对角元素，得到所述第二近似精度矩阵。

27、可选地，所述第二近似精度矩阵为零矩阵。

28、根据本专利技术的另一方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上运行的计算机程序，所述处理器执行所述程序时实现上述所述的超高维数据的精度矩阵估计方法的步骤。

29、根据本专利技术的再一方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时，所述处理器执行上述任一项所述方法的步骤。

30、本专利技术实施例的有益效果是：区别于现有技术的情况，本专利技术实施例中，提供了一种超高维数据的精度矩阵估计方法，使用协方差列筛选方法在超高维数据中识别出显著相关变量子集，并对这些子集应用块对角正则化方法得到到估计精度矩阵。本专利技术的方法，不仅大幅减少了模型复杂性和计算负荷，而且还保持了模型的精确性和稳定，可适应于各种超高维数据分析领域。与现有的r语言包相比，本专利技术提供的超高维数据的精度矩阵估计方法能显著提高计算速度。

本文档来自技高网...

【技术保护点】

1.一种超高维数据的精度矩阵估计方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述样本协方差矩阵得到所述样本矩阵的总体协方差矩阵估计包括：

3.根据权利要求2所述的方法，其特征在于，所述自适应阈值的计算公式如下：

4.根据权利要求1所述的方法，其特征在于，所述基于所述总体协方差矩阵估计对所述个变量进行总相关强度统计和分组，得到显著相关变量子集和非显著相关变量子集包括：

5.根据权利要求1所述的方法，其特征在于，所述个样本数据的估计精度矩阵=。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述第一近似精度矩阵的计算方法为：

7.根据权利要求6所述的方法，其特征在于，所述第二近似精度矩阵的计算方法为：

8.根据权利要求6所述的方法，其特征在于，所述第二近似精度矩阵为零矩阵。

9.一种计算机设备，包括存储器、处理器及存储在存储器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-8任一项所述的超高维数据的精度矩阵估计方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时，所述处理器执行如权利要求1-8任一项所述方法的步骤。

...

【技术特征摘要】

1.一种超高维数据的精度矩阵估计方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述样本协方差矩阵得到所述样本矩阵的总体协方差矩阵估计包括：

3.根据权利要求2所述的方法，其特征在于，所述自适应阈值的计算公式如下：

5.根据权利要求1所述的方法，其特征在于，所述个样本数据的估计精度矩阵=。

6.根据权利要求1至5任一项所述的方法，其...

【专利技术属性】
技术研发人员：潘建新，李立康，杨翊和，
申请(专利权)人：北京师范大学香港浸会大学联合国际学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人