本发明专利技术提供一种用于植被覆盖度估算的样本量确定方法、装置及设备,涉及样本采样技术领域,方法包括:对原始样本数据进行采样,获得多个具有不同样本量的第一采样样本数据;确定第一采样样本数据与原始样本数据的第一样本分布相似度随第一采样样本数据的样本量减少的变化情况;分别利用各第一采样样本数据训练目标神经网络模型,确定训练完成的目标神经网络模型输出的预测结果对应的第一误差信息随第一采样样本数据的样本量减少的变化情况;基于第一样本分布相似度随样本量减少的变化情况,以及第一误差信息随样本量减少的变化情况确定目标样本量。本发明专利技术确定的目标样本量对应的采样样本数据能够反映原始样本数据的分布状况,且有数据支撑。且有数据支撑。且有数据支撑。
【技术实现步骤摘要】
用于植被覆盖度估算的样本量确定方法、装置及设备
[0001]本专利技术涉及样本采样
,尤其涉及一种用于植被覆盖度估算的样本量确定方法、装置及设备。
技术介绍
[0002]植被覆盖度(Fraction Vegetation Coverage,FVC)指的是植被器官在地面的垂直投影面积占统计区总面积的百分比。FVC是描述陆地植被状况的重要参数,是研究大气圈、土壤圈、水圈和生物圈及其相互作用的重要指标,在农林业监测、资源与环境管理、土地利用和灾害风险监测等方面有着广泛的应用,因此,区域和全球范围内的FVC遥感监测具有重要意义。
[0003]基于机器学习的FVC反演方法通常结合物理模型(辐射传输模型)和机器学习方法进行建模,以辐射传输模型生成大量模拟数据用于模型训练。这种方法有较高的估算精度和计算效率,可以有效地抑制噪音数据,但是用于进行模型训练的样本数据的选择会极大影响该类模型的反演精度。基于不同数据量的模拟数据和机器学习方法建立FVC估算模型,一方面,大量用于进行模型训练的样本数据能够保证机器学习模型的精度,另一方面,用于进行模型训练的样本数据过多也会带来信息冗余,导致模型训练效率较低,而少量用于进行模型训练的样本数据虽然可以保证模型效率,但不能保证模型精度。
[0004]因此,在基于机器学习的植被覆盖度反演中,如何选择合适的用于进行模型训练的样本量,减少样本数据冗余,能够保证模型反演精度的同时可以提高模型训练效率,成为业界亟需解决的问题。
[0005]相关技术中,通常基于定性的方法或定量的方法确定样本量,其中定性的方法是根据已有的文献资料和经验直接选择合适大小的样本量;定量的方法是根据公式进行计算,例如简单随机抽样情况下,根据公式确定样本量,其中,表示样本量,表示置信度,表示总体标准差,表示允许的误差范围。然而,定性的方法依赖于人为经验,缺乏数据支撑,定量的方法从统计学角度没有考虑采样的样本分布和总体样本分布的关系,采样的样本无法反映总体样本的分布。
技术实现思路
[0006]针对现有技术存在的问题,本专利技术提供一种用于植被覆盖度估算的样本量确定方法、装置及设备。
[0007]第一方面,本专利技术提供一种用于植被覆盖度估算的样本量确定方法,包括:对原始样本数据进行采样,获得多个具有不同样本量的第一采样样本数据;分别确定各所述第一采样样本数据与所述原始样本数据的第一样本分布相似度,并确定所述第一样本分布相似度随所述第一采样样本数据的样本量减少的变化情况;分别利用各所述第一采样样本数据训练目标神经网络模型,并将同一个测试集数
据分别输入各训练完成的所述目标神经网络模型,确定各训练完成的所述目标神经网络模型输出的预测结果对应的第一误差信息,并确定所述第一误差信息随所述第一采样样本数据的样本量减少的变化情况;基于所述第一样本分布相似度随所述第一采样样本数据的样本量减少的变化情况,以及所述第一误差信息随所述第一采样样本数据的样本量减少的变化情况,确定目标样本量。
[0008]可选地,根据本专利技术提供的一种用于植被覆盖度估算的样本量确定方法,所述基于所述第一样本分布相似度随所述第一采样样本数据的样本量减少的变化情况,以及所述第一误差信息随所述第一采样样本数据的样本量减少的变化情况,确定目标样本量,包括:基于所述第一样本分布相似度随所述第一采样样本数据的样本量减少的变化情况,以及所述第一误差信息随所述第一采样样本数据的样本量减少的变化情况,确定所述样本量与所述第一样本分布相似度之间的第一关系、所述样本量与所述第一误差信息之间的第二关系,以及所述第一样本分布相似度的变化与所述第一误差信息的变化之间的第三关系;基于所述第一关系、所述第二关系和所述第三关系,确定所述目标样本量。
[0009]可选地,根据本专利技术提供的一种用于植被覆盖度估算的样本量确定方法,所述基于所述第一关系、所述第二关系和所述第三关系,确定所述目标样本量,包括:基于所述第一关系、所述第二关系和所述第三关系,确定所述第一样本分布相似度随所述第一采样样本数据的样本量的减少开始变化的第一目标点,所述开始变化的第一目标点与所述第一目标点的下一个点之间的斜率的绝对值大于第一预设值;将所述第一目标点对应的第一样本量作为所述目标样本量。
[0010]可选地,根据本专利技术提供的一种用于植被覆盖度估算的样本量确定方法,所述基于所述第一关系、所述第二关系和所述第三关系,确定所述目标样本量,包括:基于所述第一关系、所述第二关系和所述第三关系,确定所述第一误差随所述第一采样样本数据的样本量的减少开始变化的第二目标点,所述开始变化的第二目标点与所述第二目标点的下一个点之间的斜率的绝对值大于第二预设值;在所述第二目标点对应的第二样本量与所述第二目标点的下一个点对应的第三样本量构成的样本量区间内进行采样,获得多个具有不同样本量的第二采样样本数据;分别确定各所述第二采样样本数据与所述原始样本数据的第二样本分布相似度,并确定所述第二样本分布相似度随所述第二采样样本数据的样本量减少的变化情况;分别利用各所述第二采样样本数据训练目标神经网络模型,并将同一个测试集数据分别输入各训练完成的所述目标神经网络模型,确定各训练完成的所述目标神经网络模型输出的预测结果对应的第二误差信息,并确定所述第二误差信息随所述第二采样样本数据的样本量减少的变化情况;基于所述第二样本分布相似度随所述第二采样样本数据的样本量减少的变化情况,以及所述第二误差信息随所述第二采样样本数据的样本量减少的变化情况,确定所述目标样本量。
[0011]可选地,根据本专利技术提供的一种用于植被覆盖度估算的样本量确定方法,所述第一误差信息和所述第二误差信息均包括以下任意一项或多项:
均方误差、平均绝对误差和平均绝对百分比误差。
[0012]可选地,根据本专利技术提供的一种用于植被覆盖度估算的样本量确定方法,所述分别确定各所述第一采样样本数据与所述原始样本数据的第一样本分布相似度,包括:分别确定各所述第一采样样本数据与所述原始样本数据的欧式距离,并利用各所述欧式距离表征各所述第一采样样本数据与所述原始样本数据的所述第一样本分布相似度。
[0013]可选地,根据本专利技术提供的一种用于植被覆盖度估算的样本量确定方法,所述对原始样本数据进行采样,获得多个具有不同样本量的第一采样样本数据,包括:基于拉丁超立方采样方法,对所述原始样本数据进行采样,获得多个具有不同样本量的所述第一采样样本数据。
[0014]可选地,根据本专利技术提供的一种用于植被覆盖度估算的样本量确定方法,在所述对原始样本数据进行采样,获得多个具有不同样本量的第一采样样本数据之前,所述方法还包括:利用辐射传输模型PROSAIL生成所述原始样本数据。
[0015]第二方面,本专利技术还提供一种用于植被覆盖度估算的样本量确定装置,包括:采样模块,用于对原始样本数据进行采样,获得多个具有不同样本量的第一采样样本数据;第一确定模块,用于分别确定各所述第一采样样本数据与所述原始样本数据的第一样本分布相似度,并确定所述第一样本分布相似度随所述本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种用于植被覆盖度估算的样本量确定方法,其特征在于,包括:对原始样本数据进行采样,获得多个具有不同样本量的第一采样样本数据;分别确定各所述第一采样样本数据与所述原始样本数据的第一样本分布相似度,并确定所述第一样本分布相似度随所述第一采样样本数据的样本量减少的变化情况;分别利用各所述第一采样样本数据训练目标神经网络模型,并将同一个测试集数据分别输入各训练完成的所述目标神经网络模型,确定各训练完成的所述目标神经网络模型输出的预测结果对应的第一误差信息,并确定所述第一误差信息随所述第一采样样本数据的样本量减少的变化情况;基于所述第一样本分布相似度随所述第一采样样本数据的样本量减少的变化情况,以及所述第一误差信息随所述第一采样样本数据的样本量减少的变化情况,确定目标样本量。2.根据权利要求1所述的用于植被覆盖度估算的样本量确定方法,其特征在于,所述基于所述第一样本分布相似度随所述第一采样样本数据的样本量减少的变化情况,以及所述第一误差信息随所述第一采样样本数据的样本量减少的变化情况,确定目标样本量,包括:基于所述第一样本分布相似度随所述第一采样样本数据的样本量减少的变化情况,以及所述第一误差信息随所述第一采样样本数据的样本量减少的变化情况,确定所述样本量与所述第一样本分布相似度之间的第一关系、所述样本量与所述第一误差信息之间的第二关系,以及所述第一样本分布相似度的变化与所述第一误差信息的变化之间的第三关系;基于所述第一关系、所述第二关系和所述第三关系,确定所述目标样本量。3.根据权利要求2所述的用于植被覆盖度估算的样本量确定方法,其特征在于,所述基于所述第一关系、所述第二关系和所述第三关系,确定所述目标样本量,包括:基于所述第一关系、所述第二关系和所述第三关系,确定所述第一样本分布相似度随所述第一采样样本数据的样本量的减少开始变化的第一目标点,所述开始变化的第一目标点与所述第一目标点的下一个点之间的斜率的绝对值大于第一预设值;将所述第一目标点对应的第一样本量作为所述目标样本量。4.根据权利要求2所述的用于植被覆盖度估算的样本量确定方法,其特征在于,所述基于所述第一关系、所述第二关系和所述第三关系,确定所述目标样本量,包括:基于所述第一关系、所述第二关系和所述第三关系,确定所述第一误差随所述第一采样样本数据的样本量的减少开始变化的第二目标点,所述开始变化的第二目标点与所述第二目标点的下一个点之间的斜率的绝对值大于第二预设值;在所述第二目标点对应的第二样本量与所述第二目标点的下一个点对应的第三样本量构成的样本量区间内进行采样,获得多个具有不同样本量的第二采样样本数据;分别确定各所述第二采样样本数据与所述原始样本数据的第二样本分布相似度,并确定所述第二样本分布相似度随所述第二采样样本数据的样本量减少的变化情况;分别利用...
【专利技术属性】
技术研发人员:李山山,杨润芝,陈勃,许殊,陈俊,吴业炜,冯旭祥,
申请(专利权)人:中国科学院空天信息创新研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。