本发明专利技术公开了一种基于平行因子的多维数据分析方法,本发明专利技术通过分析平行因子算法的每个步骤,包含Khatri-Rao积、(Kronecker)克罗内克积和非线性迭代偏最小二乘(NIPALS)算法,对平行因子算法通过GPGPU(通用计算图形处理器)平台做了大量的并行化处理,从而大大提升了算法的运算速度,降低了时间复杂度。通过改进的平行因子算法使得方法能够应用于实际的大规模高维数据分析中。
【技术实现步骤摘要】
本专利技术属于信号分析
,涉及一种多维数据分析方法,尤其涉及一种基于 平行因子的快速可扩展的多维数据分析方法。
技术介绍
高密度多模式的多维数据分析在科学研究和实际的应用中都有重要的研究意义, 如多元神经信号。如何在信号的空间域、时间域和频率域无损失的捕获信号的特征是一个 亟待解决的问题。为了分析大规模数据的特性,提出了一种主成分分 析法(PCA,principalcomponent analysis)方法,通过统计学的知识将信号的高维数据映 射到一个低维空间来分析信号的特性。另外,提出一种独立成分分析法(ICA, independent componentanalysis)方法,在提取神经信号的特征上取得了不错的效果。 但是上述的一些方法都是基于双通道数据来分析的,只能分析时间-空间域信号,或者时 间-频率域信号,而不能被应用到多通道的神经信号分析中。因此,由于神经信号的特殊 性,神经信号通常是多通道高维度的,传统的双通道处理方法并不能有效解决神经信号的 分析问题。 为了有效解决三维或者更高维度的多维数据分析,提出了一种平行因子 分析(PARAFAC,Parallel Factor Analysis)算法,也被称为典范分解算法(CPD,Canonical Polyadic Decomposition)。平行因子算法相比于传统的PCA和ICA方法,不仅具有更好的 稳定性和唯一性,并且能够处理更高维度的数据。近年来,平行因子分析算法被广泛用于脑 电图数据(EEG, electroencephalography)分析,并取得了不错的效果。然而,平 行因子的算法复杂度高达〇 (η2),在面对大规模超高维度的多维数据分析时,处理速度非常 缓慢,难以满足实际应用中实时的需求。 上述的一些方法有些无法解决高维数据分析问题,有些方法时间复杂度很高,难 以满足很多实际应用中的实时性的要求。因此亟待专利技术一种快速的可扩展的多维数据分析 方法。 F. Estienne,Ν. Matthi js,D. L. Massart,Ρ. Ricoux,and D. Leibovici, "Multi-way modelling of high-dimensionality electroencephalographicdata,y, Chemo metrics and Intelligent Laboratory Systems, 58(1):59-72, 2001.. K. Pearson, "On lines and planes of closest fit to systems of points inspace, ',Philosophical Magazine, vol. 2, no. 6, pp. 559-572, 1901. P. Comon, "Independent Component Analysis, a new concept ? "Signa !Processing, vol. 36, no. 3, pp. 287-314, 1994. R. Bro and H. A. L. Kiers, "A new efficient method for determining thenumber of components in PARAFAC models, " Journal ofChemometrics, vol. 17, pp. 274-286, 2003. F. Miwakeichi,E. Mart nez-Montes,P. A. Vald6s_Sosa,N. Nishiyama,H. Mizuhara and Y.Yamaguchij "Decomposing EEG Data into Space - time -frequency Components using Parallel Factor Analysis, ^ NeuroImagej vol. 22, no. 3, pp. 1035-1045, 2004. J. Wang and X. Li, "Characteristics of evoked potential Multiple EEGrecordings in patients with chronic pain by means of parallel factoranalysis," Computational and Mathemetical Methods in Medicine, 2012.
技术实现思路
toon] 为了解决上述技术问题,本专利技术提供了一种基于平行因子的快速可扩展的多维数 据分析方法。 本专利技术所采用的技术方案是:,其特征在 于,包括以下步骤: 步骤1 :三维模式主成分分析; 输入一组三维数据X,数据大小为IX JXK ;通过Tucker3模型将初始的数据分解 为NXNX 2的一个矩阵G,也就是两个大小为NXN的矩阵;并且矩阵G的计算公式如下: Χ = 1·Τ,(Ζ?ν) U,V,和Z分别是Tucker3模型中X矩阵的因子矩阵,Tucker3模型是一种三维PCA 方法;?表示克罗内克积,即: 其中pn,p12, P21,P22等分别表示矩阵P、Q中的每个元素; 步骤2 :矩阵的特征值和特征向量求解; 即在得到矩阵G后,对G进行特征值和特征向量求解,其计算方式如下: 其中,Φ,Ψ,和Θ分别是矩阵G的因子矩阵,f表示矩阵不同的元素序号,F是元 素总的数目; Θ表示Khatri-Rao积操作,其计算方式如下: 步骤3 :Khatri_Rao积的GPGPU(通用计算图形处理器)处理; 根据Khatri-Rao积的定义,两个二维数组A和B的Khatri-Rao积为: Α(Μ,Κ) ΘΒ(Ν,Κ) =C(MXN,K),其中M、N、K分别表示矩阵的大小;A、B、C是在得到G之后 计算其特征值和特征向量三个维度所需要的矩阵内因子,其中A、B、C三个矩阵内因子分别 表示了多维数据时间域维度、空间域维度、频率域维度的信息; 步骤4 :矩阵的内因子计算; 初始化步骤3中的A、B、C三个矩阵: A = UX Φ ; B = VX Ψ ; C = ZX Θ ; 其中X表示向量的外积; 步骤5 :设置基于自协方差最小二乘法(ALS,Autocovariance Least-Squares)的 平行因子算法终止条件,包括算法迭代的最大次数MI,算法的最大误差Λ ;然后开始平行 因子算法处理,计算最优的A,B,C ; 步骤6 :更新因子矩阵A ; 其中A的更新方法如下: Z=(C11OB11); A1= XixjkZ(ZtZ) S 其中i表示当前迭代次数,C11和B11分别表示上一次(i-1)更新的结果; X (I,J,K)三个维度不同模式的因子数量定义为Wl、W2、和W3,其中W 1表示第一个维度模式 U(Lw1)中因子的数量,W2表示第二个维度模式V(J,W 2)中因子的数量,《3表示第三个维度 模式Z(K,W3)中因子的数量,其中每个因子的权重都是由G( Wl,w2, W3)来决定的; 步骤7 :更新因子矩阵B ; 其中B的更新方法如下: Z=(本文档来自技高网...
【技术保护点】
一种基于平行因子的多维数据分析方法,其特征在于,包括以下步骤:步骤1:三维模式主成分分析;输入一组三维数据X,数据大小为I×J×K;通过Tucker3模型将初始的数据分解为N×N×2的一个矩阵G,也就是两个大小为N×N的矩阵,并且矩阵G的计算公式如下:X=UTG(Z⊗V)]]>U,V,和Z分别是Tucker3模型中X矩阵的因子矩阵,Tucker3模型是一种三维PCA方法;表示克罗内克积,即:其中p11,p12,p21,p22等分别表示矩阵P、Q中的每个元素;步骤2:矩阵的特征值和特征向量求解;即在得到矩阵G后,对G进行特征值和特征向量求解,其计算方式如下:其中,Φ,Ψ,和Θ分别是矩阵G的因子矩阵,f表示矩阵不同的元素序号,F是元素总的数目;⊙表示Khatri‑Rao积操作,其计算方式如下:步骤3:Khatri‑Rao积的GPGPU处理;根据Khatri‑Rao积的定义,两个二维数组A和B的Khatri‑Rao积为:A(M,K)⊙B(N,K)=C(M×N,K),其中M、N、K分别表示矩阵的大小;A、B、C是在得到G之后计算其特征值和特征向量三个维度所需要的矩阵内因子,其中A、B、C三个矩阵内因子分别表示了多维数据时间域维度、空间域维度、频率域维度的信息;步骤4:矩阵的内因子计算;初始化步骤3中的A、B、C三个矩阵:A=U×Φ;B=V×Ψ;C=Z×Θ;其中×表示向量的外积;步骤5:设置基于自协方差最小二乘法的平行因子算法终止条件,包括算法迭代的最大次数MI,算法的最大误差△;然后开始平行因子算法处理,计算最优的A,B,C;步骤6:更新因子矩阵A;其中A的更新方法如下:Z=(Ci‑1⊙Bi‑1);Ai=XI×JKZ(ZTZ)‑1;其中i表示当前迭代次数,Ci‑1和Bi‑1分别表示上一次(i‑1)更新的结果;X(I,J,K)三个维度不同模式的因子数量定义为w1、w2、和w3,其中w1表示第一个维度模式U(I,w1)中因子的数量,w2表示第二个维度模式V(J,w2)中因子的数量,w3表示第三个维度模式Z(K,w3)中因子的数量,其中每个因子的权重都是由G(w1,w2,w3)来决定的;步骤7:更新因子矩阵B;其中B的更新方法如下:Z=(Ci‑1⊙Ai);Bi=XJ×IKZ(ZTZ)‑1;其中i表示当前迭代次数,Ci‑1表示上一次(i‑1)更新的结果,Ai表示最新更新的结果;步骤8:更新因子矩阵C;其中C的更新方法如下:Z=(Ai⊙Bi);Ci=XK×IJZ(ZTZ)‑1;其中i表示当前迭代次数,Ai和Bi分别表示最新更新的结果;步骤9:计算适配误差;计算矩阵因子更新后的适配误差,其计算方式如下:δi=‖X‑Ai(Ci⊙Bi)T‖2并判断下述两个条件是否都满足;条件一:δi‑δi‑1>△;条件二:i<MI;如果上述两个条件同时满足,则顺序执行下下述步骤10;如果上述两个条件不是同时满足,则回转执行所述的步骤6;步骤10:ALS算法达到全局最优或者已经达到了最大迭代次数,算法结束,输出最优的矩阵因子A=Ai、B=Bi和C=Ci。...
【技术特征摘要】
【专利技术属性】
技术研发人员:陈丹,李小俚,胡阳阳,蔡畅,曾科,闫佳庆,邓泽,
申请(专利权)人:武汉大学,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。