本发明专利技术公开了一种基于随机森林算法的海洋牧场常见底栖动物高光谱数据分类方法。该方法首先选择多个不同种类的水下底栖动物样品,采集其高光谱图像,提取反射谱光谱数据并归一化。之后建立三种不同的随机森林模型,通过网格搜索参数寻优、提取RF变量重要性获得并改善分类结果。采用随机森林模型可以很好的将特征光谱中变量重要性高,对分类判别贡献大的光谱数据提取出来,分类效果更加优秀。本方法可实现对海洋牧场常见底栖动物的原位识别,同时评估RF、PCA
【技术实现步骤摘要】
一种基于随机森林算法的底栖动物高光谱数据分类方法
[0001]本专利技术属于光谱分类识别领域,具体说是一种基于随机森林算法的底栖动物高光谱数据分类方法。
技术介绍
[0002]近年来近海生态系统受到全球变化和人类活动的多重影响,出现生境退化、资源衰退、生物多样性降低等问题。海洋牧场建设是实现生境恢复和资源增殖的重要手段,是渔业产业结构转型升级的重要抓手。目前,已经有不少海洋牧场企业利用水下摄像系统开始视频数据的收集和利用,实时信息量巨大,数据难以利用人工方法进行生物群落数据的提取,图像分析技术与机器学习等在海洋牧场生物资源监测研究中显得尤为重要。在水产养殖中应用人工智能、机器视觉技术及其他传感器技术,可以实时的监测生态环境等,并结合深度学习、随机森林等算法实现机器视觉的识别分类检测,对海洋生物进行分类识别统一分析,深入挖掘养殖过程数据,提高工作效率和决策可靠性。水下目标探测所使用的传统的红
‑
绿
‑
蓝(RGB)相机取得图像的技术越来越成熟。传统的图像处理方法和基于深度学习的目标检测算法,如基于区域的快速卷积神经网络(Faster R
‑
CNN),You Only Look Once(YOLO),已广泛应用于水下目标检测。在理想的水下成像环境中,检测速度和检测结果均优于传统方法,各种算法的精度都能达到很高的水平。然而,传统的RGB图像检测技术存在一系列问题。当水下成像环境较差且海洋动物具有保护色彩机制时,很难从复杂的背景中有效地检测和识别实验目标。
[0003]高光谱成像技术可以提供比RGB图像更高的光谱分辨率,其波段覆盖范围可从紫外、可见光、近红外到中红外波段,提供丰富的光谱信息。高光谱数据一般由数百个相邻的窄光谱波段获取,可以解决传统RGB图像检测技术所遇到的问题,也使其具有较好的目标识别能力和相似目标识别能力。经典的高光谱目标检测算法包括由Reed和Xiaoli开发的异常检测器RXD算法、核RXD(KRXD)算法、正交子空间投影(OSP)算法和约束能量最小化(CEM)算法。目前,文献中关于高光谱水下目标检测与分类的研究较少。
[0004]随机森林(Random Forest,RF)算法已成功应用于一系列高维数据分类研究,其中包括高光谱数据分析。RF是一个bagging(即bootstrap聚合)集成过程,其中分类树是从训练数据中获得的随机样本中生长出来的。RF使用套袋和随机变量选择在集合中构建决策树。作为集成分类器,RF算法拥有几个优点:(1)该算法结合了特征之间的交互作用;(2)在计算上比装袋或增压更有效;(3)不容易出现过拟合现象;(4)提供了可变强度估计和内部误差估计。
技术实现思路
[0005]鉴于上述情况,本专利技术的目的是提供一种基于随机森林算法的海洋牧场常见底栖动物高光谱数据分类方法,解决了感官分析准确度不高,样品预处理复杂、费时、消耗大量溶剂等,分类技术应用范围受限,DNA技术操作繁琐,难以适应批量快速识别检测的问题。本
专利技术利用水下高光谱数据和三种RF算法建立模型,在水下环境中对多种海洋牧场常见的底栖动物进行分类识别;评估RF、PCA
‑
RF和RFE
‑
RF三种算法在水下高光谱数据分类分析中的效用,选择可能产生最佳分类精度的波段子集。比较PCA
‑
RF与RFE
‑
RF算法的分类性能,测试了不同特征选择算法选择的波段组合提高了最终的分类精度。
[0006]本专利技术为实现上述目的所采用的技术方案是:
[0007]一种基于随机森林算法的底栖动物高光谱数据分类方法,包括以下步骤:
[0008]获取不同种类的海洋牧场常见底栖动物目标样品,采集其高光谱数据并进行预处理;
[0009]分别构建RF模型、PCA
‑
RF模型以及RFE
‑
RF模型,并使用预处理后的高光谱数据对3种模型进行训练;
[0010]使用3种训练好的模型分别对底栖动物高光谱数据进行分类。
[0011]构建RF模型,包括以下步骤:
[0012]1.1)将预处理后的高光谱数据分为训练集和测试集,采用有放回的随机抽样方式从训练集中抽取样本,作为决策树的训练数据,输入RF模型中,生成由多颗决策树组成的随机森林模型;
[0013]1.2)调整决策树的深度和数量,重复步骤1.1),取每一次调整后生成的随机森林中所有决策树OOB误差估计的平均值作为随机森林的泛化误差估计,通过调整随机森林模型的模型参数,当随机森林的泛化误差估计在固定范围区间内波动时,选取模型输出的准确度最高时对应的决策树深度和决策树数量,作为最佳决策树深度和最佳决策树数量,得到初始随机森林模型;
[0014]1.3)使用测试集检验初始随机森林模型的识别准确度。
[0015]对RF模型进行训练,包括以下步骤:
[0016]2.1)根据初始随机森林模型输出的变量重要性,将高光谱数据中的光谱特征由大到小排序,令i=l;
[0017]2.2)将排序中前i个光谱特征作为初始随机森林模型的训练集样本中的光谱数据,重复步骤1.1)
‑
步骤1.3),重新训练RF模型,确定最佳决策树深度和最佳决策树数量,建立与前i个光谱特征相对应的RF模型,检验与前i个光谱特征相对应的RF模型的识别准确度,i=i+l;
[0018]2.3)判断i≤n,n为高光谱数据中的光谱特征总数,如果是,返回步骤2.2),否则,选取步骤2.2)中建立的所有光谱特征量对应的RF模型的平均识别正确率最高的RF模型作为最终的随机森林模型。
[0019]构建并训练PCA
‑
RF模型模型,包括以下步骤:
[0020]3.1)计算高光谱数据中的相关系数矩阵、特征值以及特征向量,并对特征值排序,保留最大的前k个特征向量,将高光谱数据转换到k个特征向量构建的新空间中完成降维,得到降维后的高光谱数据,作为模型的输入数据;
[0021]3.2)执行步骤1.1)
‑
步骤2.3),得到PCA
‑
RF模型。
[0022]构建并训练RFE
‑
RF模型模型,包括以下步骤:
[0023]4.1)通过RFE方法对高光谱数据的全波段进行筛选,得到最佳波段子集,对全波段进行降维,将最佳波段子集以及对应的光谱特征,作为模型的输入数据;
[0024]4.2)执行步骤1.1)
‑
步骤2.3),得到RFE
‑
RF模型。
[0025]一种基于随机森林算法的底栖动物高光谱数据分类系统,包括:
[0026]数据获取及预处理模块,用于获取不同种类的海洋牧场常见底栖动物目标样品,采集其高光谱数据并进行预处理;
[0027]模型构建及训练模块,用于分别构建RF模型、PCA
‑
RF模型以及RFE
‑
RF模本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于随机森林算法的底栖动物高光谱数据分类方法,其特征在于,包括以下步骤:获取不同种类的海洋牧场常见底栖动物目标样品,采集其高光谱数据并进行预处理;分别构建RF模型、PCA
‑
RF模型以及RFE
‑
RF模型,并使用预处理后的高光谱数据对3种模型进行训练;使用3种训练好的模型分别对底栖动物高光谱数据进行分类。2.根据权利要求1所述的一种基于随机森林算法的底栖动物高光谱数据分类方法,其特征在于,构建RF模型,包括以下步骤:1.1)将预处理后的高光谱数据分为训练集和测试集,采用有放回的随机抽样方式从训练集中抽取样本,作为决策树的训练数据,输入RF模型中,生成由多颗决策树组成的随机森林模型;1.2)调整决策树的深度和数量,重复步骤1.1),取每一次调整后生成的随机森林中所有决策树OOB误差估计的平均值作为随机森林的泛化误差估计,通过调整随机森林模型的模型参数,当随机森林的泛化误差估计在固定范围区间内波动时,选取模型输出的准确度最高时对应的决策树深度和决策树数量,作为最佳决策树深度和最佳决策树数量,得到初始随机森林模型;1.3)使用测试集检验初始随机森林模型的识别准确度。3.根据权利要求1所述的一种基于随机森林算法的底栖动物高光谱数据分类方法,其特征在于,对RF模型进行训练,包括以下步骤:2.1)根据初始随机森林模型输出的变量重要性,将高光谱数据中的光谱特征由大到小排序,令i=l;2.2)将排序中前i个光谱特征作为初始随机森林模型的训练集样本中的光谱数据,重复步骤1.1)
‑
步骤1.3),重新训练RF模型,确定最佳决策树深度和最佳决策树数量,建立与前i个光谱特征相对应的RF模型,检验与前i个光谱特征相对应的RF模型的识别准确度,i=i+l;2.3)判断i≤n,n为高光谱数据中的光谱特征总数,如果是,返回步骤2.2),否则,选取步骤2.2)中建立的所有光谱特征量对应的RF模型的平均识别正确率最高的RF模型作为最终的随机森林模型。4.根据权利要求1所述的一种基于随机森林算法的底栖动...
【专利技术属性】
技术研发人员:杜增丰,董建江,栾振东,张鑫,田野,张建兴,杜梦迪,
申请(专利权)人:中国科学院海洋研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。