一种面向桥梁病害评级数据的去噪方法技术

技术编号:21771600 阅读:44 留言:0更新日期:2019-08-03 21:32
本发明专利技术涉及一种面向桥梁病害评级数据的去噪方法,其特征在于:首先删除原始数据集中难以区分出特征值次序关系的特征;其次对数据集中所有标签不同的样本分别进行两两比较,获得一个由标签冲突的样本组成的冲突对集合;然后根据样本在冲突对集合中出现的次数由高到低进行排序,接着依次计算排名前t%的样本的轮廓系数,从冲突对集合以及数据集中删除轮廓系数小于ε的样本,然后再次依据样本在冲突对中出现的次数进行排序,计算轮廓系数以及进行删除操作,直到排名前t%的样本的轮廓系数均不小于ε;最后得到一个去除了噪音的数据集,该去噪方法能够有效提高桥梁病害数据分级的准确性。

A Noise Removal Method for Bridge Disease Rating Data

【技术实现步骤摘要】
一种面向桥梁病害评级数据的去噪方法
本专利技术属于数据处理
,旨在设计一种面向桥梁病害评级数据的去噪方法。
技术介绍
改革开放以来,我国公路桥梁迎来大建设大发展时期。目前,我国公路桥梁总数接近80万座,桥梁数量和规模均位居世界之首。然而,我国步入维修期的在役桥梁日渐增多。据不完全统计,我国在役桥梁约40%服役超过20年,技术等级为三、四类的带病桥梁高达30%,甚至有超过10万座桥梁为危桥,安全隐患不容忽视。桥梁病害状况评级是路桥管理和养护的基础。传统的人工评级方法不仅耗时耗力,而且准确度不高,迫切需要运用机器学习技术对在役桥梁病害进行自动评级。现有桥梁数据集中往往包含着大量的标签噪音数据,为了有效提高机器学习方法进行桥梁病害评级的预测性能,需要过滤掉原始数据集中的标签噪音数据。目前主流的标签噪音过滤方法有两种形式:(1)直接改编分类算法来降低标签噪音对算法性能的影响;(2)采用预分类器对数据进行分类投票,然后过滤掉部分疑似噪音数据。然而,上述两种方法在过滤桥梁病害标签噪音数据上的效果并不理想。综上所述,本交叉领域亟需设计一种新的标签噪音过滤方法来解决上述问题。
技术实现思路
有鉴于此,本专利技术公开了一种桥梁病害评级数据的去噪方法,有效地提高了基于机器学习的桥梁病害评级方法的预测性能。第一、通过删除原始数据集中难以区分出特征值次序关系的特征得到新的数据集,该数据集中每一特征的特征值皆有次序关系,其中,所述原始数据集中包括有各个桥梁的基本信息,各个种类的桥梁病害信息及对应的桥梁病害等级标签;第二、对数据集中所有样本进行两两比较,并将互相冲突的两个样本组成一个冲突对,而数据集中所有的冲突对构造成一个冲突对集合;第三、统计冲突对集合中样本的出现次数,并对样本的出现次数进行排序;第四、依据样本的轮廓系数和样本频次依次由高到低剔除掉一定比例的样本获得新的数据集;最后,使用stacking方法分别对原始数据集和新数据集进行训练获得两个模型,并对两个模型的桥梁病害等级预测性能进行评估验证,以验证本去噪方法的有效性,若确认有效,便得到了一个相对干净的数据集。本专利技术的技术方案实现形式为:一种面向桥梁病害评级数据的去噪方法,首先通过样本的两两比对获得冲突对集合,然后根据样本在冲突对集合中出现的次数,结合样本的轮廓系数进行噪音数据剔除,得到过滤后的数据集,接着使用同一种机器学习方法分别在原始数据集和过滤后的新数据集上对模型进行训练,最后比较两模型的预测性能,具体步骤为:S1、将原始数据集中的数据进行预处理获得数据集W1,通过对W1中无全序关系的特征进行去除得到新的数据集W2;S2、基于数据集W2,根据特征ai的特征值ai,j对具有不同标签的样本进行两两比较,构造冲突对ci;S3、基于冲突对ci构造冲突集合C={c1,c2,...,cN},其中N是冲突集C中包含的冲突对总数;S4、通过统计冲突集合C中样本sk出现的频次fk,获得词典D={sk:fk}。S5、将词典D中的样本按频次由高到低进行排序;S6、针对排序后前t%的样本,在数据集W2中计算轮廓系数s(k),删除s(k)小于ε的样本sk,获得过滤后的新数据集W3,与此同时删除冲突对集合C中包含疑似噪音样本sk的冲突对;S7、重复S4,S5,S6,直至步骤S62中无s(i)小于ε的样本;S8、使用相同机器学习方法,基于数据集W1和W3分别训练出模型M1和M3,评估并比较模型M3的预测性能。进一步地,步骤S1包括:S11、基于数据集W1,使用热卡填充方法,利用最相似样本的值补足缺失特征值,最相似样本的度量方法为其中ai,j为数据集中第i个样本的第j个特征的特征值,为缺失的特征值;S12、删除对标签值无影响的无用特征;S13、删除数据集W1中特征值无全序关系的特征,获得数据集W2。进一步地,步骤S2包括:S21、数据集W2的特征集合为A={a1,a2,...,aNi},Ni是数据集W2的特征总数;S22、数据集特征ai的特征值集合为其中Na是数据集W2的总样本数,也是特征ai的特征值总数;S23、首先判断两个样本的标签,若相同,则跳过比较这两个样本,若标签不同,则对两个样本所有特征下的特征值一一对应地比较大小,其计算公式:若f(A,B)为真,则有A,B构成冲突对(A,B);S24、选定第一个样本,依次将后面的所有样本按照步骤S23的方式与第一个样本进行比较,构造冲突对,依次进行下去,直至迭代到最后一个样本,然后选定第二个样本,依次将后面的所有样本按照步骤S23的方式与第一个样本进行比较,构造冲突对,依次进行下去,直至迭代到最后一个样本;同样地,直到选定倒数第二个样本比较完后停止迭代。进一步地,步骤S3包括:S31、将步骤S23构造的所有冲突对,构造成一个冲突集合C={c1,c2,...,cN},N是冲突集C的冲突对总数。进一步地,步骤S4包括:S41、统计冲突对左边元素中样本sk出现的次数flk;S42、统计冲突对右边元素中样本sk出现的次数frk;S43、计算总频次fk=flk+frk;S44、将样本sk和其出现的频次fk之间的一一映射关系,构造一个词典D={sk:fk},k=1,2,...,Na。进一步地,步骤S5包括:S51、将词典D中的样本按照频次fk由高到低进行排序。进一步地,步骤S6包括:S61、根据公式计算轮廓系数,其中为样本sk的簇内不相似度,ai,k为样本sk第i个特征的特征值和rk为样本sk的标签;b(k)=min{b(k)1,b(k)2,...b(k)n}为样本sk的簇间不相似度,是样本sk与第n簇(即标签为rn的类别)的不相似度;S62、若样本sk的轮廓系数s(k)<ε,则记录下该样本sk的编号,并将其视为疑似噪音样本,在数据集W2中删除掉样本sk,得到新的数据集W3。S63、在冲突对集合C中删除包含步骤S62中疑似噪音样本sk的冲突对。进一步地,步骤S7包括:S71、重复S4,S5,S6,直至步骤S62中无s(i)小于ε的样本(在本专利中,ε被设定为0)。进一步地,步骤S8包括:S81、分别将数据集W1和新数据集W3按照同样的比例分为三部分,分别是训练集、验证集和测试集;S82、运用使用stacking方法分别在W1和W3训练出模型M1和M3;S83、比较评估模型M3的预测性能。采用上述方法策略后,本专利技术的积极效果是:(1)本专利技术针对桥梁病害数据集中出现的标签噪音数据,设计了一种截然不同的噪音消除算法,利用样本与样本之间的标签冲突,依据样本冲突次数找到了不同样本作为噪音数据概率大小的差异,增加了标签噪音过滤的准确性,提高了数据集的数据质量。(2)相较于传统的使用分类算法进行标签噪音过滤的方法,本专利技术借助了数据集本身内在结构的特异性,提高了最终训练出机器学习模型的预测性能。附图说明读者在参照附图阅读了本专利技术的具体实施方式以后,将会更清楚地了解本专利技术的各个方面,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提之下,还可以根据这些附图获得其他附图。图1为本专利技术的面向桥梁病害评级数据的噪音去除方法实施例的流程示意图。图2为本专利技术的面向桥梁病害评级数据的噪音去除方法实施例中步骤S2的具体流程示意图。图3为本专利技术的本文档来自技高网...

【技术保护点】
1.一种面向桥梁病害评级数据的去噪方法,首先通过对样本数据进行两两比对获得冲突对集合,然后根据样本在冲突对集合中出现的次数,并结合样本的轮廓系数剔除噪音数据,得到过滤后的数据集,紧接着使用stacking方法分别在原始数据集和过滤后的新数据集上对模型进行训练,最后评估并比较两模型的预测性能,以验证本去噪方法的有效性,若确认有效,便得到了一个相对干净的数据集,具体步骤为:S1、将原始数据集中的数据进行预处理得到数据集W1,对W1中无全序关系的特征进行去除,获得数据集W2;S2、根据数据集W2,基于特征ai的特征值ai,j对不同标签的样本进行两两比较,构造冲突对ci;S3、根据冲突对ci构造冲突集合C={c1,c2,...,cN},N是冲突集C的冲突对总数;S4、统计冲突集合C中样本sk出现的频次fk,得到词典D={sk:fk};S5、将词典D中的样本按频次由高到低进行排序;S6、对排序后前t%的样本在数据集W2中计算轮廓系数s(k),删除s(k)小于ε的样本sk,得到过滤后的新数据集W3,同时删除冲突对集合C中包含疑似噪音样本sk的冲突对;S7、重复S4,S5,S6,直至步骤S62中无s(i)小于ε的样本;S8、在数据集W1和W3上使用同一种机器学习算法分别训练出模型M1和M3,比较评估模型M3的预测性能。...

【技术特征摘要】
1.一种面向桥梁病害评级数据的去噪方法,首先通过对样本数据进行两两比对获得冲突对集合,然后根据样本在冲突对集合中出现的次数,并结合样本的轮廓系数剔除噪音数据,得到过滤后的数据集,紧接着使用stacking方法分别在原始数据集和过滤后的新数据集上对模型进行训练,最后评估并比较两模型的预测性能,以验证本去噪方法的有效性,若确认有效,便得到了一个相对干净的数据集,具体步骤为:S1、将原始数据集中的数据进行预处理得到数据集W1,对W1中无全序关系的特征进行去除,获得数据集W2;S2、根据数据集W2,基于特征ai的特征值ai,j对不同标签的样本进行两两比较,构造冲突对ci;S3、根据冲突对ci构造冲突集合C={c1,c2,...,cN},N是冲突集C的冲突对总数;S4、统计冲突集合C中样本sk出现的频次fk,得到词典D={sk:fk};S5、将词典D中的样本按频次由高到低进行排序;S6、对排序后前t%的样本在数据集W2中计算轮廓系数s(k),删除s(k)小于ε的样本sk,得到过滤后的新数据集W3,同时删除冲突对集合C中包含疑似噪音样本sk的冲突对;S7、重复S4,S5,S6,直至步骤S62中无s(i)小于ε的样本;S8、在数据集W1和W3上使用同一种机器学习算法分别训练出模型M1和M3,比较评估模型M3的预测性能。2.根据权利要求1所述的一种面向桥梁病害评级数据的去噪方法,其特征在于,所述的步骤S1具体包括:S11、基于数据集W1,使用热卡填充方法,利用最相似样本的值补足缺失特征值,最相似样本的度量方法为其中ai,j为数据集中第i个样本的第j个特征的特征值,为缺失的特征值;S12、删除对标签值无影响的无用特征;S13、删除数据集W1中特征值无全序关系的特征,得到数据集W2。3.根据权利要求1所述的一种面向桥梁病害评级数据的去噪方法,其特征在于,所述的步骤S2具体包括:S21、数据集W2的特征集合为A={a1,a2,...,aNi},Ni是数据集W2的特征总数;S22、数据集特征ai的特征值集合为D={ai,1,ai,2,...,ai,Na},Na是数据集W2的总样本数,也是特征ai的特征值总数;S23、首先判断两个样本的标签,若相同,则跳过比较这两个样本,若标签不同,则对两个样本所有特征下的特征值一一对应地比较大小,其计算公式:若f(A,B)为真,则有A,B构成冲突对(A,B);S24、选定第一个样本,依次将后面的所有样本按照步骤...

【专利技术属性】
技术研发人员:周扬名王凯叶琪阮彤翟洁
申请(专利权)人:华东理工大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1