一种从大规模高维度光谱巡天数据中挖掘稀少天体的方法技术

技术编号:11116634 阅读:114 留言:0更新日期:2015-03-06 13:50
本发明专利技术公开了一种从大规模高维度光谱巡天数据中挖掘稀少天体的方法,属于数据挖掘技术,将光谱巡天数据经过数据预处理、数据降维、随机采样、局部稀疏度计算、筛选稀少光谱五个阶段,挖掘稀少天体;数据预处理:对光谱巡天数据进行预处理操作;数据降维:对光谱巡天数据进行数据降维;随机采样:将光谱巡天数据使用随机采样得到一个小样本;局部稀疏度计算:对采样的小样本光谱集计算稀疏度,稀疏度数值越大是稀少天体的可能性越大;筛选稀少光谱:按样本稀疏度排序所有光谱,筛选稀疏度最大的一定数量光谱作为稀少天梯候选体,再进行稀少天体分析。本发明专利技术可快速且有效的从大规模高维度巡天数据中自动挖掘稀少天体。

【技术实现步骤摘要】

本专利技术涉及一种数据挖掘技术,具体地说是一种从大规模高维度光谱巡天数据中挖掘稀少天体的方法
技术介绍
随着天文观测设备及终端技术的不断发展,越来越多的望远镜投入到巡天当中,进而产生了大量的巡天数据。这些数据除了进行大样本的天文学统计研究之外,其中必然会包含了分布相对较少的类型的天体目标。天文学的一个重要目的是发现异常、稀少甚至于未知类型的天体目标,大量的巡天数据中可能就存在一些对天文学研究甚至整个自然科学的研究意义都非常重大的天体目标。如何从大规模高维度光谱巡天数据中挖掘稀少天体目标,是本领域技术人员迫切需要解决的问题。
技术实现思路
本专利技术一种从大规模高维度光谱巡天数据中挖掘稀少天体的方法的技术任务是提供一种基于主成分分析、随机采样、局部稀疏度计算技术的稀少天体光谱搜寻方法,从而快速且有效的从大规模高维度巡天数据中自动挖掘稀少天体。本专利技术的技术任务是按以下方式实现的:一种从大规模高维度光谱巡天数据中挖掘稀少天体的方法,将光谱巡天数据经过数据预处理、数据降维、随机采样、局部稀疏度计算、筛选稀少光谱五个阶段,挖掘稀少天体;(1)、数据预处理:对光谱巡天数据进行预处理操作,消除光谱间的不一致性,同时归一化各条光谱巡天数据;(2)、数据降维:对于后续步骤来说,光谱巡天数据的某些波长采样点对应的强度并不是必须的;同时过多的属性导致高维空间中低密度甚至空洞的属性空间,这使得后续光谱巡天数据的归纳及结果的产生变的相对困难,因此需要对光谱巡天数据在保证保持尽量多特征信息的情况下,进行数据降维,数据降维的目的是通过变换得到新特征空间数量相对较少的特征;(3)、随机采样:将光谱巡天数据使用随机采样得到一个小样本;(4)、局部稀疏度计算:对采样的小样本光谱集计算稀疏度;稀疏度为样本周围的密度与其k邻域内样本密度的比值,其中样本密度为该样本k邻域的最大距离;在计算稀疏度时,首先要计算样本的距离矩阵,得到每个样本的k邻域样本,然后计算每个样本密度,进而得到每个样本的稀疏度;稀疏度表征了是该条光谱是特殊天体的可能性大小,数值越大是稀少天体的可能性越大;(5)、筛选稀少光谱:按样本稀疏度排序所有光谱,筛选稀疏度最大的一定数量光谱作为稀少天梯候选体,再进行稀少天体分析。对光谱巡天数据进行预处理操作包括数据清理预处理操作、数据集成预处理操作、数据变换预处理操作、数据归约预处理操作。结构包括光谱巡天数据主成分分析、随机采样、局部稀疏度计算,采用主成分分析来降低样本的维度,采用随机采样来降低计算的规模,采用局部稀疏度计算表征样本的局部稀疏度。步骤(3)中,随机采样时采取完全随机采样或者采用加权采样,采样率较低的样本权值高。步骤(4)中,距离采用欧氏距离或曼哈顿距离或余弦距离。步骤(4)中,计算稀疏度时,由于不同迭代之间不存在耦合性,因此可以采用并行迭代计算结构,通过多线程和多进程方式来加速非耦合迭代过程计算。本专利技术的一种从大规模高维度光谱巡天数据中挖掘稀少天体的方法具有以下优点:充分考虑到光谱巡天数据的规模大及维度高的特点,主成分分析可在保证原始特征的情况下降低数据维度;随机采样可大大降低计算的规模解决大规模样本计算的问题;采用局部稀疏度计算表征一条光谱在整个巡天样本中的局部稀疏度;从而快速且有效的从大规模高维度巡天数据中自动挖掘稀少天体。附图说明下面结合附图对本专利技术进一步说明。附图1为一种从大规模高维度光谱巡天数据中挖掘稀少天体的方法的流程图。具体实施方式参照说明书附图和具体实施例对本专利技术的一种从大规模高维度光谱巡天数据中挖掘稀少天体的方法作以下详细地说明。实施例1:本专利技术的一种从大规模高维度光谱巡天数据中挖掘稀少天体的方法, 将光谱巡天数据经过数据预处理、数据降维、随机采样、局部稀疏度计算、筛选稀少光谱五个阶段,挖掘稀少天体;(1)、数据预处理:对光谱巡天数据进行预处理操作,消除光谱间的不一致性,同时归一化各条光谱巡天数据;(2)、数据降维:对于后续步骤来说,光谱巡天数据的某些波长采样点对应的强度并不是必须的;同时过多的属性导致高维空间中低密度甚至空洞的属性空间,这使得后续光谱巡天数据的归纳及结果的产生变的相对困难,因此需要对光谱巡天数据在保证保持尽量多特征信息的情况下,进行数据降维,数据降维的目的是通过变换得到新特征空间数量相对较少的特征;(3)、随机采样:将光谱巡天数据使用随机采样得到一个小样本;(4)、局部稀疏度计算:对采样的小样本光谱集计算稀疏度;稀疏度为样本周围的密度与其k邻域内样本密度的比值,其中样本密度为该样本k邻域的最大距离;在计算稀疏度时,首先要计算样本的距离矩阵,得到每个样本的k邻域样本,然后计算每个样本密度,进而得到每个样本的稀疏度;稀疏度表征了是该条光谱是特殊天体的可能性大小,数值越大是稀少天体的可能性越大;(5)、筛选稀少光谱:按样本稀疏度排序所有光谱,筛选稀疏度最大的一定数量光谱作为稀少天梯候选体,再进行稀少天体分析。实施例2:本专利技术的一种从大规模高维度光谱巡天数据中挖掘稀少天体的方法, 将光谱巡天数据经过数据预处理、数据降维、随机采样、局部稀疏度计算、筛选稀少光谱五个阶段,挖掘稀少天体;(1)、数据预处理:对光谱巡天数据进行预处理操作,消除光谱间的不一致性,同时归一化各条光谱巡天数据;(2)、数据降维:对于后续步骤来说,光谱巡天数据的某些波长采样点对应的强度并不是必须的;同时过多的属性导致高维空间中低密度甚至空洞的属性空间,这使得后续光谱巡天数据的归纳及结果的产生变的相对困难,因此需要对光谱巡天数据在保证保持尽量多特征信息的情况下,进行数据降维,数据降维的目的是通过变换得到新特征空间数量相对较少的特征;(3)、随机采样:将光谱巡天数据使用随机采样得到一个小样本;(4)、局部稀疏度计算:对采样的小样本光谱集计算稀疏度;稀疏度为样本周围的密度与其k邻域内样本密度的比值,其中样本密度为该样本k邻域的最大距离;在计算稀疏度时,首先要计算样本的距离矩阵,得到每个样本的k邻域样本,然后计算每个样本密度,进而得到每个样本的稀疏度;稀疏度表征了是该条光谱是特殊天体的可能性大小,数值越大是稀少天体的可能性越大;(5)、筛选稀少光谱:按样本稀疏度排序所有光谱,筛选稀疏度最大的一定数量光谱作为稀少天梯候选体,再进行稀少天体分析。对光谱巡天数据进行预处理操作包括数据清理预处理操作、数据集成预处理操作、数据变换预处理操作、数据归约预处理操作。结构包括光谱巡天数据主成分分析、随机采样、局部稀疏度计算,采用主成分分析来降低样本的维度,采用随机采样来降低计算的规模,采用局部稀疏度计算表征样本的局部稀疏度。步骤(3)中,随机采样时采取完全随机采样或者采用加权采样,采样率较低的样本权值高。步骤(4)中,距离采用欧氏距离或曼哈顿距离或余弦距离。步骤(4)中,计算稀疏度时,由于不同迭代之间不存在耦合性本文档来自技高网...

【技术保护点】
一种从大规模高维度光谱巡天数据中挖掘稀少天体的方法,其特征在于将光谱巡天数据经过数据预处理、数据降维、随机采样、局部稀疏度计算、筛选稀少光谱五个阶段,挖掘稀少天体;(1)、数据预处理:对光谱巡天数据进行预处理操作,消除光谱间的不一致性,同时归一化各条光谱巡天数据;(2)、数据降维:对光谱巡天数据在保证保持尽量多特征信息的情况下,进行数据降维,数据降维的目的是通过变换得到新特征空间数量相对较少的特征;(3)、随机采样:将光谱巡天数据使用随机采样得到一个小样本;(4)、局部稀疏度计算:对采样的小样本光谱集计算稀疏度;稀疏度为样本周围的密度与其k邻域内样本密度的比值,其中样本密度为该样本k邻域的最大距离;稀疏度表征了是该条光谱是特殊天体的可能性大小,数值越大是稀少天体的可能性越大;(5)、筛选稀少光谱:按样本稀疏度排序所有光谱,筛选稀疏度最大的一定数量光谱作为稀少天梯候选体,再进行稀少天体分析。

【技术特征摘要】
1.一种从大规模高维度光谱巡天数据中挖掘稀少天体的方法,其特征在于将光谱巡天数据经过数据预处理、数据降维、随机采样、局部稀疏度计算、筛选稀少光谱五个阶段,挖掘稀少天体;
(1)、数据预处理:对光谱巡天数据进行预处理操作,消除光谱间的不一致性,同时归一化各条光谱巡天数据;
(2)、数据降维:对光谱巡天数据在保证保持尽量多特征信息的情况下,进行数据降维,数据降维的目的是通过变换得到新特征空间数量相对较少的特征;
(3)、随机采样:将光谱巡天数据使用随机采样得到一个小样本;
(4)、局部稀疏度计算:对采样的小样本光谱集计算稀疏度;稀疏度为样本周围的密度与其k邻域内样本密度的比值,其中样本密度为该样本k邻域的最大距离;稀疏度表征了是该条光谱是特殊天体的可能性大小,数值越大是稀少天体的可能性越大;
(5)、筛选稀少光谱:按样本稀疏度排序所有光谱,筛选稀疏度最大的一定数量光谱作为稀少天梯候选体,再进行稀少天体分析。
2.根据权利要求1所述的一种从大规模高维度光谱巡天数据中挖掘稀...

【专利技术属性】
技术研发人员:韦鹏付兴旺吴楠
申请(专利权)人:浪潮电子信息产业股份有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1