System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于随机森林和合成少数类过采样技术的土层识别方法技术_技高网

基于随机森林和合成少数类过采样技术的土层识别方法技术

技术编号:44654265 阅读:6 留言:0更新日期:2025-03-17 18:45
本发明专利技术提供了基于随机森林和合成少数类过采样技术的土层识别方法,适用于土层识别领域,包括基于水下深层水泥搅拌桩采集数据、数据处理、获得均衡样本数据集、数据准备、获得最优随机森林算法参数、构建分类模型、分类模型测试和优化、模型应用;本方法提出了基于随机森林和合成少数类过采样技术的土层识别方法,具有较高的分类精度和广泛的适用性,可广泛的应用于土层识别领域。

【技术实现步骤摘要】

本专利技术涉及基于随机森林和合成少数类过采样技术的土层识别方法,适用于土层识别领域。


技术介绍

1、在土木工程和地质工程中,土层分类是基础工程设计与施工的关键环节。准确的土层分类有助于优化地基处理方案、选择适当的施工方法、提高工程安全性和稳定性。然而,由于土层的复杂性和多样性,传统的土层分类方法在处理高维度和非线性数据时存在显著局限。传统的土层分类方法主要依赖于人工经验和常规土工试验,这些方法在处理复杂多变的土层数据时效率低下,且结果的准确性和一致性难以保证。此外,土层分类中的样本类别不平衡问题也是一大挑战,少数类土层样本在数据集中占比极低,导致分类器对少数类的识别能力不足。

2、为了解决这些问题,近年来,机器学习技术被引入到土层分类中。其中,随机森林算法由于其强大的非线性建模能力和高鲁棒性,被广泛应用于土层分类任务中。随机森林通过集成多棵决策树进行投票决策,能够有效提高分类精度。然而,rf算法在处理样本类别不平衡问题时仍然存在一定局限。合成少数类过采样技术通过生成新的少数类样本来平衡数据集的类别分布,从而提高分类器对少数类的识别能力。将smote与rf结合,可以显著改善土层分类的性能,然而传统的随机森林算法分类精度与准确性依赖于树深等这些参数的选取。利用网格搜索或者随机搜索算法会导致计算复杂度过高,分类效率低下。另外,smote技术在合成样本时,可能会引入噪声数据影响分类器的性能。

3、在此背景下,本专利提出了一种基于改进随机森林和合成少数类过采样技术的土层分类方法,用灰狼算法改进随机森林的超参数,提升分类性能、减少噪声引入并提高了分类器的分类效率。通过改进随机森林和合成少数类过采样技术方法有望弥补现有方法的不足,为土层识别问题带来创新性的解决方案。


技术实现思路

1、本专利技术的目的,是为了解决目前机器学习技术被引入到土层分类中遇到的一些问题。提出了基于随机森林和合成少数类过采样技术的土层识别方法。

2、本专利技术的目的可以通过采取如下技术方案达到:

3、基于随机森林和合成少数类过采样技术的土层识别方法步骤为:

4、s101基于水下深层水泥搅拌桩采集数据;

5、所述基于水下深层水泥搅拌桩采集数据,包括在待土层识别区域,水下深层搅拌桩编号x在施工过程中收集n组施工参数,每组施工参数获取的时间相同,所述施工参数包括下贯阶段能耗w、下贯阶段水掺量q、下贯平均速度v、下贯平均电流a和施工高程h;

6、所述基于水下深层水泥搅拌桩采集数据,包括在所述水下深层搅拌桩编号x附近进行地质钻孔检测,采用专家评判法,获得的基于高程的土层类别判定结果;

7、s102数据处理;

8、所述数据处理,包括根据所述n组施工参数中的施工高程h结合所述采用专家评判法获得的基于高程土层类别判定结果,对所述n组施工参数添加标签,所述标签代表土层类别判别结果,最终获得包含标签的n组施工参数数据;

9、s103获得均衡样本数据集;

10、所述获得均衡样本数据集,包括采用合成少数过采样技术将所述包含标签的n组施工参数数据调整成包含标签的均衡样本施工参数数据集;

11、s104数据准备;

12、所述数据准备,包括将所述包含标签的均衡样本施工参数数据集按照一定的比例随机分为训练集和测试集;

13、s105获得最优随机森林算法参数;

14、所述获得最优随机森林算法参数,包括采用灰狼算法获得最优随机森林算法参数;

15、s106构建分类模型;

16、所述构建分类模型,包括根据所述最优随机森林算法参数构建分类模型;

17、s107分类模型测试和优化;

18、所述分类模型测试和改进,包括将测试集数据输入到所述分类模型中,获得模型分类结果,对比模型分类结果和测试集数据标签获得测试集测试结果,并根据所述测试集测试结果进行优化,最终获得优化后的模型;

19、s108模型应用;

20、所述模型应用,包括使用所述优化后的模型进行土层分类。

21、进一步的,上述步骤s102中,所述包含标签的n组施工参数数据中每组包含标签的施工参数数据为维度为1×6的向量,对应一个输出变量和五个输入变量,所述一个输出变量为标签,所述五个输入变量为下贯阶段能耗w、下贯阶段水掺量q、下贯平均速度v、下贯平均电流a和施工高程h。

22、进一步的,上述步骤s103中,所述采用合成少数过采样技术将所述包含标签的n组施工参数数据调整成包含标签的均衡样本施工参数数据集的步骤为:

23、a)针对所述包含标签的n组施工参数数据,统计每种标签的施工参数数据数量,根据统计结果获得少数类标签的施工参数数据组,所述少数类标签的确定采用式(2)确定,

24、

25、式中,ni为少数类标签i的施工参数数据组数,n为施工参数数据总组数,m为标签类别总数,η为调整系数,取值为0.5~0.8;

26、b)从少数类标签的施工参数数据组随机选择一个测量集标记为d,计算选定测量集d与同一标签中所有其余测量集之间的欧氏距离,选择欧氏距离最小的前y个测量集作为测量集d的y个最近邻居;

27、c)从测试集d的y个最近邻居中随机选择一个测量集e,

28、d)生成一个介于0和1之间的随机变量μ,基于线性插值方法通过式(3)生成新的合成数据集f,

29、f=d+μ(d-e) (3)

30、e)将新的数据集f根据其标签加入到对应的包含标签的n组施工参数数据中以拓展数据,重复步骤a)~步骤d),最终获得包含标签的均衡样本施工参数数据集。

31、进一步的,上述步骤s105中,所述采用灰狼算法获得最优随机森林算法参数的步骤为:

32、a)初始化灰狼重拳,每一只灰狼均包含一个随机森林模型的超参数组合;

33、b)通过适应度函数计算每只灰狼的适应度值,所述适应度函数采用式(4),

34、

35、式中,n1为采用灰狼包含的超参数组合构建随机森林模型对训练集进行标签分类的分类正确的个数;

36、c)根据适应度值计算结果,确定当前最优解、优解和次优解;

37、d)更新其余灰狼的位置,重复计算适应度和更新位置的过程,直到达到预定的迭代次数或适应度收敛;

38、e)迭代结束后,选择适应度最高的灰狼位置作为最优随机森林算法参数。

39、本专利技术具有以下有益效果:通过采用合成少数过采样技术(smote)对施工参数数据进行均衡处理,可以有效地解决数据不平衡问题,提高模型对少数类土层的识别能力,从而提升整体的分类精度;通过灰狼算法优化随机森林算法的参数,可以更有效地从数据中学习到土层的特征,增强模型的泛化能力,使其在未见过的土层数据上也能做出准确的分类。该方法不依赖于特定的土层结构或自相关函数的假设,具有较好的普适性本文档来自技高网...

【技术保护点】

1.基于随机森林和合成少数类过采样技术的土层识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于随机森林和合成少数类过采样技术的土层识别方法,其特征在于,所述步骤S102中,所述包含标签的N组施工参数数据中每组包含标签的施工参数数据为维度为1×6的向量,对应一个输出变量和五个输入变量,所述一个输出变量为标签,所述五个输入变量为下贯阶段能耗W、下贯阶段水掺量Q、下贯平均速度V、下贯平均电流A和施工高程H。

3.根据权利要求1所述的基于随机森林和合成少数类过采样技术的土层识别方法,其特征在于,所述步骤S103中,所述采用合成少数过采样技术将所述包含标签的N组施工参数数据调整成包含标签的均衡样本施工参数数据集的步骤为:

4.根据权利要求1所述的基于随机森林和合成少数类过采样技术的土层识别方法,其特征在于,所述步骤S105中,所述采用灰狼算法获得最优随机森林算法参数的步骤为:

【技术特征摘要】

1.基于随机森林和合成少数类过采样技术的土层识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于随机森林和合成少数类过采样技术的土层识别方法,其特征在于,所述步骤s102中,所述包含标签的n组施工参数数据中每组包含标签的施工参数数据为维度为1×6的向量,对应一个输出变量和五个输入变量,所述一个输出变量为标签,所述五个输入变量为下贯阶段能耗w、下贯阶段水掺量q、下贯平均速度v、下贯平均电...

【专利技术属性】
技术研发人员:赵一鸣王雪刚林美鸿滕超何丽平
申请(专利权)人:中交四航工程研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1