数据降维方法及装置制造方法及图纸

技术编号:20746273 阅读:23 留言:0更新日期:2019-04-03 10:34
本发明专利技术提供了一种数据降维方法及装置,该方法包括:构建用于数据降维的初始神经网络,并将高维数据集和低维数据集分别作为所述初始神经网络的输入和输出,所述高维数据集中的样本点的维数大于所述低维数据集中的样本点的维数;基于所述高维数据集的样本点距离关系和所述低维数据集的样本点距离关系构建神经网络目标函数;根据所述神经网络目标函数优化调整所述初始神经网络的参数;利用优化调整参数后的所述初始神经网络对待处理数据进行降维处理。通过上述方案得到的低维数据集能够保持高维数据集的全局特征。

【技术实现步骤摘要】
数据降维方法及装置
本专利技术涉及数据处理
,尤其涉及一种数据降维方法及装置。
技术介绍
数据降维是指将高维数据集降低维度至低维数据集,并保证生成的低维数据集与原始的高维数据集所包含的主要信息是相似的。现实中,很多待处理和分析的数据集往往数据量很大,并且维度很高,比如,在地震勘探中,为了利用反射地震波形识别油气发育位置,需要处理和分析的数据集可能包含上百至上千万个样点,每个样点的维度可能达到100维。数据降维可以降低高维数据集的时间或空间复杂度,节省数据集处理的计算开销,去掉数据集中的无效信息和冗余信息,凸显数据集中的有效信息,实现高维数据集可视化,简化数据集分析难度。现有的数据降维方法可以分为线性方法和非线性方法两大类:线性方法中最经典的方法是主分量分析(PCA),PCA利用线性代数中均方误差准则下失真最小的K-L变换将原空间数据集变换到特征向量空间,但其降维结果往往具有一定的模糊性,不如原始样本完整,贡献率小、却可能将含有样本差异重要信息的主成分直接舍弃,造成信息丢失;非线性方法的代表方法有:核PCA方法、局部线性嵌入法(LLE)、等距映射法(ISOMap)等,其中,核PCA方法的降维效果依赖于核函数的选取,LLE与ISOMap都假设数据集具有流形结构,不能适应所有数据集类型。以上方法存在不足:①都涉及矩阵运算,无法适应大数据集降维;②无法记忆数据集的特征,一旦数据集中加入新的样本,就需要重新计算;③部分方法的降维结果不能很好地保持高维数据集的全局样本点距离关系。
技术实现思路
有鉴于此,本专利技术提供了一种数据降维方法及装置,以解决现有技术中的一项或多项缺失。为了达到上述目的,本专利技术采用以下方案实现:在本专利技术一个实施例中,数据降维方法,包括:构建用于数据降维的初始神经网络,并将高维数据集和低维数据集分别作为所述初始神经网络的输入和输出,所述高维数据集中的样本点的维数大于所述低维数据集中的样本点的维数;基于所述高维数据集的样本点距离关系和所述低维数据集的样本点距离关系构建神经网络目标函数;根据所述神经网络目标函数优化调整所述初始神经网络的参数;利用优化调整参数后的所述初始神经网络对待处理数据进行降维处理。在本专利技术一个实施例中,根据所述神经网络目标函数优化调整所述初始神经网络的参数,包括:根据所述神经网络目标函数,利用随机梯度下降法优化调整所述初始神经网络的参数。在本专利技术一个实施例中,根据所述神经网络目标函数,利用随机梯度下降法优化调整所述初始神经网络的参数,包括:从所述高维数据集中随机抽取设定数量的样本点;将随机抽取的所述设定数量的样本点输入至所述初始神经网络,并输出所述低维数据集的样本点;基于随机抽取的所述设定数量的样本点和输出的所述低维数据集的样本点计算所述神经网络目标函数的值;根据所述神经网络目标函数的值利用随机梯度下降法优化调整所述初始神经网络的参数。在本专利技术一个实施例中,数据降维装置,包括:神经网络构建单元,用于构建用于数据降维的初始神经网络,并将高维数据集和低维数据集分别作为所述初始神经网络的输入和输出,所述高维数据集中的样本点的维数大于所述低维数据集中的样本点的维数;目标函数构建单元,用于基于所述高维数据集的样本点距离关系和所述低维数据集的样本点距离关系构建神经网络目标函数;参数调整单元,用于根据所述神经网络目标函数优化调整所述初始神经网络的参数;数据降维单元,用于利用优化调整参数后的所述初始神经网络对待处理数据进行降维处理。在本专利技术一个实施例中,计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述实施例所述方法的步骤。在本专利技术一个实施例中,计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述实施例所述方法的步骤。本专利技术的数据降维方法、数据降维装置、计算机设备及计算机可读存储介质,基于高维数据集的样本点距离关系和低维数据集的样本点距离关系构建神经网络目标函数,能够使神经网络目标函数包含样本点距离关系信息。根据该神经网络目标函数优化调整用于降维的初始神经网络的参数,能够使得利用优化调整后的初始神经网络降维得到的低维数据集很好地保持高维数据集的全局样本点距离关系。进一步,利用随机梯度下降法优化调整所述初始神经网络的参数,在训练神经网络不需要一次性输入整个大数据集,只需要多次输入大数据集中的小部分随机样本点即可,使得能够适应大数据集,而且优化后的神经网络可以很好的记忆数据集的特征,数据集中新加入样本点时无需重新计算。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:图1是本专利技术一实施例的数据降维方法的流程示意图;图2是本专利技术一实施例中构建神经网络目标函数的方法流程示意图;图3是本专利技术一实施例中利用随机梯度下降法优化调整初始神经网络的参数的方法流程示意图;图4是本专利技术另一实施例中利用随机梯度下降法优化调整初始神经网络的参数的方法流程示意图;图5是本专利技术一实施例中的高维数据集的样本点示意图;图6是根据本专利技术一实施例的方法对图5所示高维数据集进行降维的结果示意图;图7是根据PCA方法对图5所示高维数据集进行降维的结果示意图;图8是本专利技术一实施例中的高维数据集的样本点示意图;图9是根据本专利技术一实施例的方法对图8所示高维数据集进行降维的结果示意图;图10是本专利技术一实施例的数据降维装置的结构示意图;图11是本专利技术一实施例中目标函数构建单元的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本专利技术实施例做进一步详细说明。在此,本专利技术的示意性实施例及其说明用于解释本专利技术,但并不作为对本专利技术的限定。图1是本专利技术一实施例的数据降维方法的流程示意图。如图1所示,一些实施例的数据降维方法,可包括:步骤S110:构建用于数据降维的初始神经网络,并将高维数据集和低维数据集分别作为所述初始神经网络的输入和输出,所述高维数据集中的样本点的维数大于所述低维数据集中的样本点的维数;步骤S120:基于所述高维数据集的样本点距离关系和所述低维数据集的样本点距离关系构建神经网络目标函数;步骤S130:根据所述神经网络目标函数优化调整所述初始神经网络的参数;步骤S140:利用优化调整参数后的所述初始神经网络对待处理数据进行降维处理。在上述步骤S110中,在能够保证输入的高维数据集的样本点的维数和输出的低维数据集的样本点的维数满足设定要求即实现降维作用的情况下,该初始神经网络的具体结构可视需要选择,例如可选择多层卷积神经网络。该高维数据集包括多个样本点,各样本点具有相同的维数,例如100,每个样本点可以是一个列向量。该高维数据集是已知的数据集,可以是地震数据集,例如,可以是实际油气勘探工区的地震反射波形数据集,每个样本对应地震测网的一个平面位置,由多个像素表示。该低维数据集需要将该高维数据集输入至神经网络中输出得到,其样本点的维数可以明显小于该高维数据集中样本点的维数。可以将高维数据集中的全部本文档来自技高网...

【技术保护点】
1.一种数据降维方法,其特征在于,包括:构建用于数据降维的初始神经网络,并将高维数据集和低维数据集分别作为所述初始神经网络的输入和输出,所述高维数据集中的样本点的维数大于所述低维数据集中的样本点的维数;基于所述高维数据集的样本点距离关系和所述低维数据集的样本点距离关系构建神经网络目标函数;根据所述神经网络目标函数优化调整所述初始神经网络的参数;利用优化调整参数后的所述初始神经网络对待处理数据进行降维处理。

【技术特征摘要】
1.一种数据降维方法,其特征在于,包括:构建用于数据降维的初始神经网络,并将高维数据集和低维数据集分别作为所述初始神经网络的输入和输出,所述高维数据集中的样本点的维数大于所述低维数据集中的样本点的维数;基于所述高维数据集的样本点距离关系和所述低维数据集的样本点距离关系构建神经网络目标函数;根据所述神经网络目标函数优化调整所述初始神经网络的参数;利用优化调整参数后的所述初始神经网络对待处理数据进行降维处理。2.如权利要求1所述的数据降维方法,其特征在于,基于所述高维数据集的样本点距离关系和所述低维数据集的样本点距离关系构建神经网络目标函数,包括:分别将所述高维数据集的样本点距离关系和所述低维数据集的样本点距离关系表示为第一概率分布和第二概率分布;利用所述第一概率分布和所述第二概率分布构建神经网络目标函数。3.如权利要求1所述的数据降维方法,其特征在于,根据所述神经网络目标函数优化调整所述初始神经网络的参数,包括:根据所述神经网络目标函数,利用随机梯度下降法优化调整所述初始神经网络的参数。4.如权利要求3所述的数据降维方法,其特征在于,根据所述神经网络目标函数,利用随机梯度下降法优化调整所述初始神经网络的参数,包括:从所述高维数据集中随机抽取设定数量的样本点;将随机抽取的所述设定数量的样本点输入至所述初始神经网络,并输出所述低维数据集的样本点;基于随机抽取的所述设定数量的样本点和输出的所述低维数据集的样本点计算所述神经网络目标函数的值;根据所述神经网络目标函数的值利用随机梯度下降法优化调整所述初始神经网络的参数。5.如权利要求4所述的数据降维方法,其特征在于,根据所述神经网络目标函数的值优化调整所述初始神经网络的参数,还包括:从所述高维数据集中重新随机抽取所述设定数量的样本点;将重新随机抽取的所述设定数量的样本点输...

【专利技术属性】
技术研发人员:杨昊郑晓东李劲松魏超
申请(专利权)人:中国石油天然气股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1