本发明专利技术公开了一种数据处理方法、装置、终端及存储介质,属于数据处理技术领域。所述方法包括:获取待处理数据;调用低秩表示与子空间联合模型对所述待处理数据进行处理,所述低秩表示与子空间联合模型包括用于去噪的低秩模型和用于降维的正则化项两部分;对所述低秩模型和所述正则化项进行联合求解,得到去噪与降维后的数据。采用低秩表示与子空间联合模型对待处理数据同时进行处理,处理过程对所述低秩模型和所述正则化项进行联合求解,由于所述低秩模型和所述正则化项分别用于去噪和降维,所以求解过程能够在去噪和降维两个目标上同时优化,从而实现最佳全局优化效果,保证了数据去噪和降维的效果。
Data Processing Method, Device, Terminal and Storage Media
【技术实现步骤摘要】
数据处理方法、装置、终端及存储介质
本专利技术涉及数据处理领域,特别涉及一种数据处理方法、装置、终端及存储介质。
技术介绍
随着机器学习技术的不断成熟,对数据进行分类或者聚类处理成为其中一个重要的研究方向。以数据分类处理为例,在进行数据分类前需要对待分类的数据进行预处理。其中,预处理的过程通常包括数据去噪、数据降维两个部分。其中,数据去噪是指除去待分类的数据中的噪声,恢复出干净的数据。数据降维是指降低数据中随机变量个数,选择出用于进行数据分类的主变量。相关技术中,数据去噪和数据降维通常是采用两个函数分别实现的。在进行数据去噪和数据降维时,两个函数独自进行优化,数据去噪的函数优化时不考虑数据降维过程,数据降维的函数优化时也不会考虑数据去噪的过程,两个函数不能协同优化,最终只能达到局部最优,而无法实现全局最优的结果,导致最终数据预处理的效果不理想。
技术实现思路
为了解决相关技术中存在的问题,本专利技术实施例提供了一种数据处理方法、装置、终端及存储介质。所述技术方案如下:一方面,提供了一种数据处理方法,所述方法包括:获取待处理数据;调用低秩与子空间联合模型对所述待处理数据进行处理,所述低秩与子空间联合模型包括用于去噪的低秩模型和用于降维的正则化项两部分;对所述低秩模型和所述正则化项进行联合求解,得到去噪与降维后的数据。另一方面,还提供了一种数据处理装置,所述装置包括:获取模块,用于获取待处理数据;处理模块,用于调用低秩与子空间联合模型对所述待处理数据进行处理,所述低秩与子空间联合模型包括用于去噪的低秩模型和用于降维的正则化项两部分;求解模块,用于对所述低秩模型和所述正则化项进行联合求解,得到去噪与降维后的数据。另一方面,还提供了一种终端,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如第一方面所述的数据处理方法。另一方面,还提供了一种存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如第一方面所述的数据处理方法。本专利技术实施例提供的技术方案带来的有益效果是:采用低秩表示与子空间联合模型对待处理数据同时进行处理,处理过程对所述低秩模型和所述正则化项进行联合求解,由于所述低秩模型和所述正则化项分别用于去噪和降维,所以求解过程能够在去噪和降维两个目标上同时优化,从而实现最佳全局优化效果,保证了数据去噪和降维的效果。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是一种低秩模型进行数据去噪的示意图;图2是噪声污染的遥感图像;图3是采用低秩模型进行去噪后的图像;图4是基于低秩模型进行数据降维的过程示意图;图5是本专利技术实施例提供的一种数据处理方法的流程图;图6是本专利技术实施例提供的另一种数据处理方法的流程图;图7是低秩表示与子空间联合方案示意图;图8是本专利技术实施例提供的一种数据处理装置的结构示意图;图9是本专利技术实施例提供的一种终端的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。为便于对本专利技术实施例提供的技术方案的理解,下面以采用低秩模型对图像进行处理为例,对现有数据处理方案所存在的问题进行说明:目前低秩模型通常可以用于对数据去噪或者对数据进行降维,尤其针对数据本身可能具有低秩特征且噪声不符合高斯分布的情况。下面结合图1对采用低秩模型进行数据去噪进行说明。图1是一种低秩模型进行数据去噪的示意图,如图1所示,X表示观测矩阵,也即待处理的数据对应的矩阵,Z表示低秩系数矩阵,E表示稀疏噪声矩阵,X=XZ+E。根据图1可以看出,基于低秩模型的数据恢复能力进行数据去噪,通过低秩模型能够得到干净数据XZ。图2为噪声污染的遥感图像,图3为采用低秩模型进行去噪后的图像,参见图2和图3,可以看出采用低秩模型的数据恢复能力可以进行数据去噪。低秩模型除了可以用于数据去噪外,还可以用于对数据进行降维。图4是基于低秩模型进行数据降维的过程示意图,参见图4,该过程分为两个阶段,第一阶段基于低秩模型进行图的构造,第二阶段进行图上的机器学习与应用。具体地,根据低秩模型能够得到低秩系数矩阵E,因为低秩系数矩阵可以看成是数据之间关联的体现,所以根据低秩系数矩阵可以得到图邻接矩阵(也即图),具体地,低秩系数矩阵Z刻画了数据之间的表示关系,因此(|Z|+|ZT|)/2可以被视为图邻接矩阵,其中ZT为Z的转置矩阵,上述过程完成了第一阶段图的构造;而基于图邻接矩阵可以实现机器学习算法,如子空间学习算法,通过子空间学习算法进行数据的降维,即完成了第二阶段。现有技术在使用低秩模型时,通常只利用其中一种用途,例如采用低秩模型进行数据降维,在利用其进行数据降维时,会先通过预处理的方式对数据进行一些去噪,然后再采用低秩模型进行数据降维。由于数据去噪和降维并非在同一目标函数的框架下完成,造成数据去噪和降维的两个目标函数不能协同优化,最终只能达到局部最优,而无法实现全局最优的结果,导致最终数据降维效果不理想。为了解决上述问题,本专利技术实施例提供了一种数据处理方法,该方法能够采用同一目标函数(即低秩表示与子空间联合模型)同时对待处理数据进行去噪和降维,以获得全局最优的结果。该方法采用服务器或者计算机(包括但不限于个人计算机、移动终端等)实现,服务器或者计算机的计算能力可以根据输入的数据规模进行设定,从而保证能够完成对输入的数据的处理,该数据处理方法详见下文实施例。另外,在上述介绍中,是以图片进行举例说明的,但本申请提供的数据处理方案也同样适用于其他格式的数据,例如视频、文本、生物特征数据(例如脑电波数据)等。图5是本专利技术实施例提供的一种数据处理方法的流程图,参见图5,该方法包括:步骤101:获取待处理数据。在本申请中,待处理数据为有噪声的数据,本申请的目的是在对数据进行降噪处理的同时采用子空间学习算法对其进行处理,从而实现对待处理数据的降噪和降维,为后续数据分析等工作做准备。其中,待处理数据既可以为图像数据,也可以为文本、视频、生物特征数据(例如脑电波数据)等数据。步骤102:调用低秩表示与子空间联合模型对所述待处理数据进行处理,所述低秩表示与子空间联合模型包括用于去噪的低秩模型和用于降维的正则化项两部分。其中,所述低秩模型可以是单子空间模型,例如鲁棒主成分分析模型,或者自定义数据低秩分解形式对应的模型;所述低秩模型也可以是多子空间模型,例如低秩表示模型、隐低秩表示模型、其他多子空间模型或者自定义数据低秩分解形式对应的模型。其中,低秩表示与子空间联合模型中的正则化项根据所需子空间的性质进行定义,详见后文实施例。步骤103:对所述低秩模型和所述正则化项进行联合求解,得到去噪与降维后的数据。在前述低秩与子空间联合模型中,所述低秩模型至少包括低秩系数矩阵和稀疏噪声矩阵两个变量,所述正则化项至少包括子空间学习投影矩阵一个变量,故步骤103实际可以是以低秩系数矩阵、稀疏噪声矩阵和子空间学习投影矩阵为优化目标,对所述低秩模型和所述正则化项进行联合求解,得本文档来自技高网...
【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括:获取待处理数据;调用低秩与子空间联合模型对所述待处理数据进行处理,所述低秩与子空间联合模型包括用于去噪的低秩模型和用于降维的正则化项两部分;对所述低秩模型和所述正则化项进行联合求解,得到去噪与降维后的数据。
【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取待处理数据;调用低秩与子空间联合模型对所述待处理数据进行处理,所述低秩与子空间联合模型包括用于去噪的低秩模型和用于降维的正则化项两部分;对所述低秩模型和所述正则化项进行联合求解,得到去噪与降维后的数据。2.根据权利要求1所述的方法,其特征在于,所述低秩模型为鲁棒主成分分析模型、低秩表示模型、隐低秩表示模型或自定义数据低秩分解形式对应的模型。3.根据权利要求1所述的方法,其特征在于,所述正则化项为:λ[Tr(Sw(WTXZ))-Tr(SB(WTXZ))],s.t.X=XZ+E,WTW=I;其中,X表示所述待处理数据对应的观测矩阵,Z表示低秩系数矩阵,E表示稀疏噪声矩阵,XZ表示去噪后的干净数据对应的矩阵,W表示XZ的子空间学习投影矩阵,WT表示W的转置矩阵,I表示单位矩阵,Sw表示类内散度矩阵,SB表示类间散度矩阵,Tr表示迹,即矩阵对角线元素的和,λ为模型参数,s.t.表示约束条件;或者,所述正则化项为:其中,Lz=Dz-(ZT+Z)/2,Z为图邻接矩阵,ZT表示Z的转置矩阵,Dz是Z的度矩阵,是Dz的度矩阵,Lz是图拉普拉斯矩阵,(Dz)ii=∑j(zij+zji)/2,W表示XZ的子空间学习投影矩阵,WT表示W的转置矩阵,X表示所述待处理数据对应的观测矩阵,Z表示低秩系数矩阵,Tr表示迹,即矩阵对角线元素的和。4.根据权利要求1所述的方法,其特征在于,所述正则化项为:λ||WTD-Q||2,s.t.C1(D,E),C2(W),其中,D=XZ,X=XZ+E,X表示所述待处理数据对应的观测矩阵,Z表示低秩系数矩阵,XZ表示去噪后的干净数据对应的矩阵,E表示稀疏噪声矩阵,WT表示W的转置矩阵,W表示XZ的子空间学习投影矩阵,Q表示回归目标,λ为模型参数,C1、C2表示约束条件。5.根据权利要求1至4任一项所述的方法,其特征在于,所述低秩模型至少包括低秩系数矩阵和稀疏噪声矩阵两个变量,所述正则化项至少包括子空间学习投影矩阵一个变量,所述对所述低秩模型和所述正则化项进行联合求解,包括:初始化所述低秩系数矩阵、所述稀疏噪声矩阵和所述子空间学习投影矩阵中的任意两个矩阵;按照所述低秩系数矩阵、所述稀疏噪声矩阵和所述子空间学习投影矩阵各自的迭代规则,交替对所述低秩系数矩阵、所述稀疏噪声矩阵和所述子空间学习投影矩阵进行迭代优化;当迭代后的所述低秩系数矩阵、所述稀疏噪声矩阵和所述子空间学习投影矩阵使得收敛性条件满足要求时,结束迭代过程,得到去噪与降维后的数据。6.根据权利要求1至4任一项所述的方法,其特征在于,所述待处理数据为图像数据、视频数据、文本数据或者生物特征数据。7.根据权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:对去噪和降维后的数据进行分类或聚类处理。8.一种数据处理装置,其特征在于,所述装置包括:获取模块,用于获取待处理数据;处理模块,用于调用低秩与子空间...
【专利技术属性】
技术研发人员:彭勇,李平,
申请(专利权)人:腾讯科技深圳有限公司,杭州电子科技大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。