当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于视频语义分割技术的混凝土裂缝识别方法和装置制造方法及图纸

技术编号:25088691 阅读:48 留言:0更新日期:2020-07-31 23:33
本发明专利技术公开了一种基于视频语义分割技术的混凝土裂缝识别方法和装置,属于混凝土结构损伤检测技术领域,包括:获取裂缝视频,在视频图片帧中手动标注标签;利用空间位移卷积块对已标注的帧预测未来帧和未来标签,并同时传播未来帧和未来标签,获得合成样本并进行预处理,形成裂缝数据库;修改Deeplabv3+的数据的输入、输出端口及参数,使其接受视频输入,并以视频输出,建立CVN模型;将已训练好的Deeplabv3+网络中的卷积层,作为CVN模型的初始权重进行迁移;将裂缝数据库输入迁移后的CVN模型,训练针对裂缝数据的混凝土裂缝检测语义分割模型CVN。相比卷积神经分类网络减少了对数据量的需求,能够以视频输入、以视频输出,快速准确识别目标,具有实际工程意义。

【技术实现步骤摘要】
一种基于视频语义分割技术的混凝土裂缝识别方法和装置
本专利技术属于混凝土结构损伤检测
,尤其涉及一种基于视频语义分割技术的混凝土裂缝识别方法和装置。
技术介绍
混凝土是目前用量最大的一种建筑材料,广泛应用于道路、桥梁、隧道及工民建等基础设施的建设中。混凝土结构表面的损伤,包括裂缝、风化、孔洞和剥落等,从视觉上反映了混凝土结构的耐久性和安全性。其中,裂缝是对结构损伤最大、引起关注最多的一种损伤类型,定期的裂缝检测在基础设施的维护和运营中具有非常重要的作用。根据裂缝的形态和位置等特征,可以推断出结构内部的破坏程度以及劣化原因,这为结构健康性评估提供了合理的指导。早期所采用的裂缝检测方法以人工检测为主,需要维护人员配备一定的设备进行现场勘查、标记、测量,并记录检测结果。传统人工视觉检测方法效率低、成本高、漏查多,正逐渐被非接触式图像采集和计算机视觉分析相结合的机器学习方法取代。例如人工检测一座跨径100m的预应力混凝土箱梁桥,需要工程师借助钢卷尺、照相机、裂缝宽度、深度检测仪等工具并租用昂贵的桥检车,在临时封闭交通的条件下,至少花费6个小时进行现场原始记录,再借助CAD等画图工具才能将整个大桥的裂缝分布示意图绘制完成。机器学习方法借助无人机、爬壁机器人等先进设备携带高清摄像头对桥梁表面进行全覆盖拍照,再采用先进的算法对裂缝进行识别和定位,具有病害调查全面、信息真实可靠的优点,正在被学者关注和研究。为了保证裂缝图片的清晰度,一般每张图片的桥梁实际尺寸不超过4m2,按照100m跨径箱梁外表面4000m2和20%照片重叠率计算,无人机需要采集至少1500张图片,花费超过2个小时,虽然不需封闭交通,但采集图片的效率并不高。相对于摄像,摄影只需要用摄像头对物体表面进行一次扫描即可,省去了摄像的重复定焦过程,所以视频数据的获取比图像快捷,而且视频拍摄具有实时性,在匹配先进的计算机硬件设施后,可用于桥梁等基础设施的运营监测。在裂缝图片的识别方面,基于计算机视觉的方法得到了广泛应用。机器学习理论通过设计一些算法,使计算机能够模拟人类的学习行为,获取新的知识或技能。其中机器学习的子类——深度学习方法不受外界干扰,能够处理大量图片数据来提高自身性能,在裂缝识别方面展现出了巨大潜力。但是这种基于深度卷积神经网络CNN的方法仅从图像层面和网格单元层面检测裂缝,以矩形分类框形式给出的结果包含部分冗余像素,不够精确。而裂缝属于小目标,在矩形框内占到的像素比例非常小,大部分都是冗余像素。而且一般的CNN模型都采样滑动窗口的方法进行预测,这种方法必然会产生大量的冗余窗口。因此,有学者提出了一种基于候选区域的卷积神经网络Faster-RCNN,避免了使用滑动窗口技术。但是Faster-RCNN仍然在网格单元层面检测裂缝,即图像在检测时会被分割为更小的图像块,使得目标的完整特征被破坏。语义分割技术可以对每一个像素进行分类,从像素层面上识别图像中的不同目标和位置,在不丢失目标空间信息的基础上,用不同颜色的掩膜表示分类结果,使得裂缝与背景完全分离。从像素层面理解图像的特性也使得语义分割对训练样本的需求量更少。虽然人工添加的多边形标签是图像级的,但是标签内的每一个已标注的像素都可以作为语义分割模型的训练样本,使得训练样本成百上千倍的增加。实际上,语义分割的结果更接近于人眼对世界的观察,因为人眼中的世界的物体边界是清晰的,而不是物体被包含在一个更大的矩形框中。然而,语义分割的图像标注成本太高。例如,在Cityspaces数据集中,一幅1024×2048分辨率的图片标注所有像素平均需要1.5小时,即使是粗略的标记,平均每幅图片仍然需要7分钟。由于很多语义分割数据集都是在连续的视频帧序列中,以一定的时间间隔选取图像进行标注得到的。如果采用一定的方法能够将标签从已标注帧传播到未标注帧,就可以获得大量的合成数据。很多学者使用光流法进行这种标签的传播,这种方法会准确捕捉物体的运动方式以及运动对周围物体的可见性和外观影响,可以从过去帧序列中预测未来帧。但是光流法无法对当前帧内新出现的物体进行光流矢量的正确估计,这会引起预测帧中的图像扭曲,存在一定的缺陷。虽然大量合成数据的获得可以有效降低语义分割的样本成本,并且使分割结果具备了静态图像中不存在的时间信息,但是无效的、错误的合成样本又会限制语义分割模型的预测精度,同时限制了视频预测的发展。综上所述,现有技术存在的问题是:建立一个预测准确性优良的深度学习模型通常需要一个海量的数据集,成本过高;传统CNN模型的预测结果冗余信息过多;光流技术无法估计当前帧内新出现物体的光流矢量,所合成的样本有效性低。解决上述技术问题的难度:语义分割的数据标注的时间成本过高;利用光流法可以增加样本数量,但是合成的样本精确性不高,需要修正图像扭曲;现存的语义分割模型只能接受图像输入。解决上述技术问题的意义:降低语义分割的时间成本,在数据集有限的情况下可获得大量合成样本,且合成样本的准确性高,可以用于语义分割模型的训练,还使得模型可以接受视频输入,适用性更广。
技术实现思路
本专利技术的目的是提供一种基于视频语义分割技术的混凝土裂缝识别方法和装置,以解决目前常用的类似穷举式的深度学习CNN方法,需要大量的数据,运算成本高,检测效率低,且时效性差的问题。为了达到上述目的,本专利技术的实施例提供一种基于视频语义分割技术的混凝土裂缝识别方法,包括以下步骤:获取裂缝视频,将视频每一帧图像保存下来,以预定间隔选取帧进行手动标注,作为手动标注样本;利用空间位移卷积块对已标注的帧预测未来帧和未来标签,并同时传播未来帧和未来标签,获得合成样本;对所述合成样本以及手动标注样本进行预处理,形成裂缝数据库;修改Deeplabv3+的数据的输入、输出端口以及参数,使其接受视频输入,并以视频输出,建立CVN(CrackVideoNet)模型;将已训练好的Deeplabv3+网络中的卷积层,作为CVN模型的初始权重进行迁移;将所述裂缝数据库输入迁移后的CVN模型,训练针对裂缝数据的混凝土裂缝检测语义分割模型CVN,使用混凝土裂缝检测语义分割模型CVN进行混凝土裂缝的识别。进一步地,所述手动标注时使用Labelme图像标注软件对图像中的裂缝进行。进一步地,所述空间位移卷积块会根据视频当前帧以及过去帧来预测未来帧中的物体。进一步地,传播未来帧和未来标签时,可由原始帧向前传播或向后传播。进一步地,利用空间位移卷积块预测未来帧和未来标签,其中,未来帧、未来标签中任意一点的坐标Ft+1(x,y)、Mt+1(x,y)为:(u,v)=C(I1:t)式中,(x,y)是某一帧内任意像素点的坐标,C是一个用于预测基于输入帧F1到Ft的运动矢量(u,v)的三维CNN,K(x,y)∈RN×N是C在(x,y)处预测的N×N的二维权重核,是Ft、Mt中以(x+u,y+v)为中心的N×N的二维核。进一步地,所述预处理包括裂缝数据增强和图像归一化本文档来自技高网
...

【技术保护点】
1.一种基于视频语义分割技术的混凝土裂缝识别方法,其特征在于,包括以下步骤:/n获取裂缝视频,将视频每一帧图像保存下来,以预定间隔选取帧进行手动标注,作为手动标注样本;/n利用空间位移卷积块对已标注的帧预测未来帧和未来标签,并同时传播未来帧和未来标签,获得合成样本;/n对所述合成样本以及手动标注样本进行预处理,形成裂缝数据库;/n修改Deeplabv3+的数据的输入、输出端口以及参数,使其接受视频输入,并以视频输出,建立CVN模型;/n将已训练好的Deeplabv3+网络中的卷积层,作为CVN模型的初始权重进行迁移;/n将所述裂缝数据库输入迁移后的CVN模型,训练针对裂缝数据的混凝土裂缝检测语义分割模型CVN,使用混凝土裂缝检测语义分割模型CVN进行混凝土裂缝的识别。/n

【技术特征摘要】
1.一种基于视频语义分割技术的混凝土裂缝识别方法,其特征在于,包括以下步骤:
获取裂缝视频,将视频每一帧图像保存下来,以预定间隔选取帧进行手动标注,作为手动标注样本;
利用空间位移卷积块对已标注的帧预测未来帧和未来标签,并同时传播未来帧和未来标签,获得合成样本;
对所述合成样本以及手动标注样本进行预处理,形成裂缝数据库;
修改Deeplabv3+的数据的输入、输出端口以及参数,使其接受视频输入,并以视频输出,建立CVN模型;
将已训练好的Deeplabv3+网络中的卷积层,作为CVN模型的初始权重进行迁移;
将所述裂缝数据库输入迁移后的CVN模型,训练针对裂缝数据的混凝土裂缝检测语义分割模型CVN,使用混凝土裂缝检测语义分割模型CVN进行混凝土裂缝的识别。


2.根据权利要求1所述的一种基于视频语义分割技术的混凝土裂缝识别方法,其特征在于,所述手动标注时使用Labelme图像标注软件对图像中的裂缝进行。


3.根据权利要求1所述的一种基于视频语义分割技术的混凝土裂缝识别方法,其特征在于,所述空间位移卷积块会根据视频当前帧以及过去帧来预测未来帧中的物体。


4.根据权利要求1所述的一种基于视频语义分割技术的混凝土裂缝识别方法,其特征在于,传播未来帧和未来标签时,可由原始帧向前传播或向后传播。


5.根据权利要求1所述的一种基于视频语义分割技术的混凝土裂缝识别方法,其特征在于,利用空间位移卷积块预测未来帧和未来标签,其中,未来帧、未来标签中任意一点的坐标Ft+1(x,y)、Mt+1(x,y)为:






(u,v)=C(I1:t)
式中,(x,y)是某一帧内任意像素点的坐标,C是一个用于预测基于输入帧F1到Ft的运动矢量(u,v)的三维CNN,K(x,y)∈RN×N是C在(x,y)处预...

【专利技术属性】
技术研发人员:申永刚俞臻威
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1