System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及找矿预测,尤其是涉及一种基于ae-lightgbm模型的找矿预测方法。
技术介绍
1、矿产资源是国家经济发展的重要基础,对现代工业和社会进步具有重要意义。随着矿产资源的不断开发和消耗,找矿预测的难度也在不断增加。随着信息技术的发展,许多机器学习技术被逐渐应用在找矿预测领域,以提高找矿工作的效率和准确率。
2、在找矿预测任务中,往往存在大量的无标签数据和少量的有标签数据。仅仅利用少量有标签数据进行有监督学习,难以充分捕捉数据的潜在模式和规律,可能导致模型的泛化能力较差。相比之下,结合无监督学习和有监督学习的优点,可以更有效地利用所有数据。无监督学习能够从大量的无标签数据中提取有用的特征表示,自动发现数据中的结构和模式,而有监督学习则可以利用少量的有标签数据进行精确预测。通过这种方式,可以充分利用无标签数据的丰富信息,同时结合有标签数据的指导,显著提升模型的精度、泛化能力和稳定性。
技术实现思路
1、本专利技术的目的是提供一种基于ae-lightgbm模型的找矿预测方法,解决上述
技术介绍
中提出的问题,充分利用无标签数据的丰富信息,同时结合有标签数据的指导,显著提升模型的精度、泛化能力和稳定性。
2、为实现上述目的,本专利技术提供了一种基于ae-lightgbm模型的找矿预测方法,包括以下步骤:
3、步骤s1、获取包含矿点、非矿点及未知矿点的研究区数据,并进行预处理操作,构建原始数据集;
4、步骤s2、基于无标签数据训练自编码
5、步骤s3、在编码后的有标签数据集上,使用贝叶斯优化算法确定lightgbm模型的最佳超参数组合,并以此训练出最佳lightgbm预测模型;
6、步骤s4、利用最佳lightgbm预测模型对研究区进行找矿预测并评价。
7、优选的,所述步骤s1中,通过钻孔数据提取和插值计算得到研究区数据的数据属性,具体包括:
8、空间属性:坐标;地质属性:地层、岩性和断层;地球化学属性:品位、元素;地球物理属性:极化率、电阻率和磁化率;
9、每个数据对应研究区的一个空间坐标,其中,研究区的矿点数量至少为100组,未知矿点数量至少为10000个。
10、优选的,所述步骤s1中的预处理操作包括整合数据的属性、标签以及空间坐标信息;对属性值进行放缩处理;去除重复的样本。
11、优选的,所述步骤s2中的有标签数据集表示为[xl:yl:il],无标签数据集表示为[xu:iu],其中,x为属性矩阵,y为标签矩阵,i为空间坐标矩阵。
12、优选的,所述步骤s2中,自编码器由编码器和解码器组成,解码器由多层全连接神经网络组成,编码器由嵌入层和多层全连接神经网络组成,嵌入层可以将类别变量映射为数值向量;
13、编码器和解码器的全连接网络的结构是对称的,编码器每层的神经元数量逐渐减少,将高维输入数据压缩到低维潜在表示,解码器通过对称的结构逐层增加神经元数量,将低维表示逐渐还原至原始数据维度;
14、自编码器采用批量正则化策略,采用adam优化器调整学习率,采用prelu()作为激活函数,公式如下:
15、
16、其中,α为自动学习的参数,x为输入值;
17、自编码器的训练数据是无标签数据中的xu,损失函数为均方误差mse,公式如下:
18、
19、其中,n为数据的样本数量,xi为输入的第i个样本,为自编码器重建的第i个样本。
20、优选的,所述步骤s2中,使用训练好的编码器对所有数据样本的数据属性进行编码,输入xl和xu,输出为编码后的属性x'l和x'u,构造编码后的有标签数据集[x'l:yl],随机划分为训练集和测试集。
21、优选的,所述步骤s3中,通过贝叶斯优化算法确定lightgbm模型的最佳超参数组合,目标函数设定为在训练集上的k折交叉验证的平均f1分数,公式如下:
22、
23、其中,k为交叉验证的折数,f1(i)为第i折的f1分数。
24、优选的,所述步骤s3中通过贝叶斯寻优的lightgbm超参数包括:迭代次数、学习率、决策树的叶子上限、决策树的深度上限、梯度提升的类别、叶子上的最小样本数、最小分裂增益、正则化系数和特征抽样比例;
25、寻优次数不少于100次,得到最佳的超参数组合。
26、优选的,所述步骤s3中,根据最佳超参数组合设定lightgbm模型的超参数,在训练集上进行训练,损失函数设定为交叉熵cross-entropy,公式如下:
27、
28、其中,n是样本数量,yi是第i个样本的真实标签,pi是模型预测为正样本的概率;
29、得到最佳的lightgbm模型,在测试集上进行初步检验。
30、优选的,所述步骤s4的具体步骤如下:
31、步骤s41、将编码后的所有研究区样本的属性x'l和x'u,作为输入;
32、步骤s42、使用最佳的lightgbm模型进行找矿预测,得到整个研究区的成矿概率;
33、步骤s43、将预测概率结合对应的空间坐标,得到研究区成矿概率的空间分布;
34、步骤s44、进行结果评价。
35、因此,本专利技术采用上述一种基于ae-lightgbm模型的找矿预测方法,可以充分利用无标签数据的丰富信息,同时结合有标签数据的指导,显著提升模型的精度、泛化能力和稳定性,在找矿预测领域具有重大意义。
36、下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。
本文档来自技高网...【技术保护点】
1.一种基于AE-LightGBM模型的找矿预测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于AE-LightGBM模型的找矿预测方法,其特征在于,所述步骤S1中,通过钻孔数据提取和插值计算得到研究区数据的数据属性,具体包括:
3.根据权利要求2所述的一种基于AE-LightGBM模型的找矿预测方法,其特征在于:所述步骤S1中的预处理操作包括整合数据的属性、标签以及空间坐标信息;对属性值进行放缩处理;去除重复的样本。
4.根据权利要求3所述的一种基于AE-LightGBM模型的找矿预测方法,其特征在于:所述步骤S2中的有标签数据集表示为[XL:YL:IL],无标签数据集表示为[XU:IU],其中,X为属性矩阵,Y为标签矩阵,I为空间坐标矩阵。
5.根据权利要求4所述的一种基于AE-LightGBM模型的找矿预测方法,其特征在于:所述步骤S2中,自编码器由编码器和解码器组成,解码器由多层全连接神经网络组成,编码器由嵌入层和多层全连接神经网络组成,嵌入层可以将类别变量映射为数值向量;
6.根据权利要求5所
7.根据权利要求6所述的一种基于AE-LightGBM模型的找矿预测方法,其特征在于:所述步骤S3中,通过贝叶斯优化算法确定LightGBM模型的最佳超参数组合,目标函数设定为在训练集上的k折交叉验证的平均F1分数,公式如下:
8.根据权利要求7所述的一种基于AE-LightGBM模型的找矿预测方法,其特征在于,所述步骤S3中通过贝叶斯寻优的LightGBM超参数包括:迭代次数、学习率、决策树的叶子上限、决策树的深度上限、梯度提升的类别、叶子上的最小样本数、最小分裂增益、正则化系数和特征抽样比例;
9.根据权利要求8所述的一种基于AE-LightGBM模型的找矿预测方法,其特征在于:所述步骤S3中,根据最佳超参数组合设定LightGBM模型的超参数,在训练集上进行训练,损失函数设定为交叉熵cross-entropy,公式如下:
10.根据权利要求9所述的一种基于AE-LightGBM模型的找矿预测方法,其特征在于,所述步骤S4的具体步骤如下:
...【技术特征摘要】
1.一种基于ae-lightgbm模型的找矿预测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于ae-lightgbm模型的找矿预测方法,其特征在于,所述步骤s1中,通过钻孔数据提取和插值计算得到研究区数据的数据属性,具体包括:
3.根据权利要求2所述的一种基于ae-lightgbm模型的找矿预测方法,其特征在于:所述步骤s1中的预处理操作包括整合数据的属性、标签以及空间坐标信息;对属性值进行放缩处理;去除重复的样本。
4.根据权利要求3所述的一种基于ae-lightgbm模型的找矿预测方法,其特征在于:所述步骤s2中的有标签数据集表示为[xl:yl:il],无标签数据集表示为[xu:iu],其中,x为属性矩阵,y为标签矩阵,i为空间坐标矩阵。
5.根据权利要求4所述的一种基于ae-lightgbm模型的找矿预测方法,其特征在于:所述步骤s2中,自编码器由编码器和解码器组成,解码器由多层全连接神经网络组成,编码器由嵌入层和多层全连接神经网络组成,嵌入层可以将类别变量映射为数值向量;
6.根据权利要求5所述的一种基于ae-lightgbm模型的找矿预测方法,其特征在于:所述步骤s2中,...
【专利技术属性】
技术研发人员:徐凯,周广隆,吴冲龙,李岩,田宜平,孔春芳,徐城阳,吕维逸,董洋,向世泽,赵杰,李必亿,李宗岭,朱睿,陈一凡,
申请(专利权)人:中国地质大学武汉,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。