【技术实现步骤摘要】
一种面向桥梁病害评级数据的去噪方法
本专利技术属于数据处理
,旨在设计一种面向桥梁病害评级数据的去噪方法。
技术介绍
改革开放以来,我国公路桥梁迎来大建设大发展时期。目前,我国公路桥梁总数接近80万座,桥梁数量和规模均位居世界之首。然而,我国步入维修期的在役桥梁日渐增多。据不完全统计,我国在役桥梁约40%服役超过20年,技术等级为三、四类的带病桥梁高达30%,甚至有超过10万座桥梁为危桥,安全隐患不容忽视。桥梁病害状况评级是路桥管理和养护的基础。传统的人工评级方法不仅耗时耗力,而且准确度不高,迫切需要运用机器学习技术对在役桥梁病害进行自动评级。现有桥梁数据集中往往包含着大量的标签噪音数据,为了有效提高机器学习方法进行桥梁病害评级的预测性能,需要过滤掉原始数据集中的标签噪音数据。目前主流的标签噪音过滤方法有两种形式:(1)直接改编分类算法来降低标签噪音对算法性能的影响;(2)采用预分类器对数据进行分类投票,然后过滤掉部分疑似噪音数据。然而,上述两种方法在过滤桥梁病害标签噪音数据上的效果并不理想。综上所述,本交叉领域亟需设计一种新的标签噪音过滤方法来解决上述问题。
技术实现思路
有鉴于此,本专利技术公开了一种桥梁病害评级数据的去噪方法,有效地提高了基于机器学习的桥梁病害评级方法的预测性能。第一、通过删除原始数据集中难以区分出特征值次序关系的特征得到新的数据集,该数据集中每一特征的特征值皆有次序关系,其中,所述原始数据集中包括有各个桥梁的基本信息,各个种类的桥梁病害信息及对应的桥梁病害等级标签;第二、对数据集中所有样本进行两两比较,并将互相冲突的两个样本组成一 ...
【技术保护点】
1.一种面向桥梁病害评级数据的去噪方法,首先通过对样本数据进行两两比对获得冲突对集合,然后根据样本在冲突对集合中出现的次数,并结合样本的轮廓系数剔除噪音数据,得到过滤后的数据集,紧接着使用stacking方法分别在原始数据集和过滤后的新数据集上对模型进行训练,最后评估并比较两模型的预测性能,以验证本去噪方法的有效性,若确认有效,便得到了一个相对干净的数据集,具体步骤为:S1、将原始数据集中的数据进行预处理得到数据集W1,对W1中无全序关系的特征进行去除,获得数据集W2;S2、根据数据集W2,基于特征ai的特征值ai,j对不同标签的样本进行两两比较,构造冲突对ci;S3、根据冲突对ci构造冲突集合C={c1,c2,...,cN},N是冲突集C的冲突对总数;S4、统计冲突集合C中样本sk出现的频次fk,得到词典D={sk:fk};S5、将词典D中的样本按频次由高到低进行排序;S6、对排序后前t%的样本在数据集W2中计算轮廓系数s(k),删除s(k)小于ε的样本sk,得到过滤后的新数据集W3,同时删除冲突对集合C中包含疑似噪音样本sk的冲突对;S7、重复S4,S5,S6,直至步骤S62中无s ...
【技术特征摘要】
1.一种面向桥梁病害评级数据的去噪方法,首先通过对样本数据进行两两比对获得冲突对集合,然后根据样本在冲突对集合中出现的次数,并结合样本的轮廓系数剔除噪音数据,得到过滤后的数据集,紧接着使用stacking方法分别在原始数据集和过滤后的新数据集上对模型进行训练,最后评估并比较两模型的预测性能,以验证本去噪方法的有效性,若确认有效,便得到了一个相对干净的数据集,具体步骤为:S1、将原始数据集中的数据进行预处理得到数据集W1,对W1中无全序关系的特征进行去除,获得数据集W2;S2、根据数据集W2,基于特征ai的特征值ai,j对不同标签的样本进行两两比较,构造冲突对ci;S3、根据冲突对ci构造冲突集合C={c1,c2,...,cN},N是冲突集C的冲突对总数;S4、统计冲突集合C中样本sk出现的频次fk,得到词典D={sk:fk};S5、将词典D中的样本按频次由高到低进行排序;S6、对排序后前t%的样本在数据集W2中计算轮廓系数s(k),删除s(k)小于ε的样本sk,得到过滤后的新数据集W3,同时删除冲突对集合C中包含疑似噪音样本sk的冲突对;S7、重复S4,S5,S6,直至步骤S62中无s(i)小于ε的样本;S8、在数据集W1和W3上使用同一种机器学习算法分别训练出模型M1和M3,比较评估模型M3的预测性能。2.根据权利要求1所述的一种面向桥梁病害评级数据的去噪方法,其特征在于,所述的步骤S1具体包括:S11、基于数据集W1,使用热卡填充方法,利用最相似样本的值补足缺失特征值,最相似样本的度量方法为其中ai,j为数据集中第i个样本的第j个特征的特征值,为缺失的特征值;S12、删除对标签值无影响的无用特征;S13、删除数据集W1中特征值无全序关系的特征,得到数据集W2。3.根据权利要求1所述的一种面向桥梁病害评级数据的去噪方法,其特征在于,所述的步骤S2具体包括:S21、数据集W2的特征集合为A={a1,a2,...,aNi},Ni是数据集W2的特征总数;S22、数据集特征ai的特征值集合为D={ai,1,ai,2,...,ai,Na},Na是数据集W2的总样本数,也是特征ai的特征值总数;S23、首先判断两个样本的标签,若相同,则跳过比较这两个样本,若标签不同,则对两个样本所有特征下的特征值一一对应地比较大小,其计算公式:若f(A,B)为真,则有A,B构成冲突对(A,B);S24、选定第一个样本,依次将后面的所有样本按照步骤...
【专利技术属性】
技术研发人员:周扬名,王凯,叶琪,阮彤,翟洁,
申请(专利权)人:华东理工大学,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。