手机版
您的当前位置: 明翰范文网 > 范文大全 > 公文范文 > 基于改进Mask,R-CNN的混凝土坝裂缝像素级检测方法

基于改进Mask,R-CNN的混凝土坝裂缝像素级检测方法

来源:网友投稿 时间:2023-07-02 13:35:04 推荐访问: 像素 混凝土 混凝土公司工作总结

牛慧余,包腾飞,2,3,李扬涛,黄思文

(1.河海大学水利水电学院,江苏 南京 210098;
2.河海大学水文水资源与水利工程科学国家重点实验室,江苏 南京 210098;
3.三峡大学水利与环境学院,湖北 宜昌 443002)

混凝土坝是最常见的水工建筑物,由于其长期暴露于大气与水环境中,因此在流水冲刷、化学腐蚀、冻融破坏等外界作用下,表面容易出现裂缝[1-2],严重危害了混凝土坝的整体结构安全。工程中,识别混凝土坝裂缝,并对其进行及时修补,对保障大坝在全生命周期内安全运行具有重要意义。

传统的混凝土坝裂缝检测主要依赖管理人员的定期巡检,人工巡检耗时长、效率低。通过拍摄设备采集裂缝图像,利用图像处理算法进行自动化识别可提升裂缝检测效率。目前混凝土结构裂缝图像处理算法主要有图像分割算法(阈值分割[3-6]、边缘检测[7-8]与数学形态学[9-10]等)和机器学习算法,多应用于道路、桥梁等传统建筑领域:刘晓瑞等[11]基于不同的阈值分割算法,给出了隧道表面裂缝快速检测技术;
徐港等[12]提出了一种基于多种连通域特征的工程结构表面裂缝提取方法;
Katakam[13]对路面图像进行分块,并进行阈值分割,成功提取出路面裂缝,但是该算法对图像质量要求比较高,且未对背景复杂的情况进行验证;
Nishikawa等[14]提出了一种强鲁棒性的针对混凝土建筑物表面裂缝检测的方法;
Chun等[15]提出一种基于两步轻度梯度提升机的混凝土表面裂缝自动检测方法,并以一座运行多年的混凝土桥作为实例验证模型有效性。针对水工建筑物的裂缝检测问题,王一兵等[16]提出了基于LabVIEW+VDM的混凝土坝裂缝检测方法;
张小伟等[17]提出一种基于自适应区生长和局部K-Means聚类的坝面裂缝检测算法;
Rezaiee-Pajand等[18]提出了一种基于遗传算法的混凝土溢流重力坝裂缝检测方法,提取二维裂缝特征进行非线性分析,最终确定裂缝的位置和大小。但图像处理算法多针对某一特定场景设计,检测过程需要对每一张图像人工调参,并手动构建裂缝特征,很依赖工程师的调参经验,具有很大的局限性。此外,数字图像处理方法对海量图像数据处理效率较低,难以满足裂缝图像快速识别的要求。

随着计算机技术的发展,基于深度学习的卷积神经网络(convolutional neural network,CNN)在目标检测领域具有良好的效果,可以自主地从图像数据集中学习特征,避免了传统图像处理算法存在的局限性。目前CNN卷积神经网络已在混凝土结构裂缝检测领域得到应用[19-20],虽然其可以进行混凝土裂缝图像识别,但无法精细化分割裂缝的形态、获取裂缝特征。针对这一问题,He等[21]通过改进Faster R-CNN[22]网络,于2017年提出了Mask R-CNN,解决了精细化像素级的实例分割问题。

混凝土坝裂缝图像语义信息较为丰富,裂缝呈现单裂缝、多裂缝、交叉裂缝、龟裂等多形态特征,对深度学习模型的特征提取能力要求较高,且背景区域可能含有噪声、光照阴影等不利因素,严重影响模型的裂缝识别效果。为克服复杂环境背景因素干扰,提升模型的图像特征提取能力,本文基于多种数字图像处理手段对混凝土坝裂缝图像进行预处理,并在Mask R-CNN的基础上,将 ResNet101+FPN网络作为主干网络进行结构改进,提升模型的特征提取能力,对复杂背景下的混凝土大坝裂缝图像进行精细分割,获取裂缝的几何形态特征,并对改进Mask R-CNN(以下简称本文模型)进行验证。

1.1 复杂条件下混凝土坝的裂缝图像预处理

混凝土坝服役环境恶劣,设备采集的裂缝图像普遍存在光照不均、噪声干扰多的问题。此外,无人机等移动设备在图像获取过程中,易出现运动模糊,这些不利因素严重影响视觉检测模型的裂缝识别效果。基于此,本文提出一套组合图像预处理方法,可有效克服混凝土坝裂缝图像光照不均、噪声干扰和运动模糊的问题,提升后续裂缝分割与提取效果。

a.直方图均衡化。直方图均衡化是一种有效处理图像光照不均的图像增强技术。直方图统计了图像中灰度值出现的概率分布情况,低照度图像的直方图分量集中于低灰度级区域,而灰度鲜明、对比度强的图像则集中于高灰度级区域。因此,可通过改变图像的直方图分布,使图像像素的每级灰度都分布均匀,以增强对比度,突出裂缝信息表达。直方图均衡计算公式为

(1)

式中:k为归一化前的灰度级;
sk为均衡化后各像素的灰度级;
l为灰度级数量;
ri为灰度;
p(ri)为相应的直方图灰度概率值。

b.双边滤波。双边滤波是一种消除图像背景噪声,增强重要特征信息的图像处理方法,能够保留边缘特征,使边缘不易被柔化处理。混凝土坝图像中裂缝边缘特征属于高频细节信息,因此采用非线性滤波处理能够有效地保留裂缝细节信息。双边滤波是常用的非线性滤波器,根据邻域像素加权组合输出滤波后的像素值。双边滤波计算公式为

(2)

式中:fj,h为中心点坐标滤波后的值;
Im,n为领域(m,n)内的图像像素;
wj,h,m,n表示像素(j,h)对应领域(m,n)的权重。

c.维纳滤波。维纳滤波是一种自适应最小均方误差滤波方法,在图像复原领域有着良好的效果。它能根据图像的局部方差调整滤波器的输出,局部方差越大,对图像的平滑作用越强,最终目的是使复原图像与原始图像的均方误差最小。

1.2 Mask R-CNN基本原理

实例分割是一种兼具目标分类、目标检测和像素级分割的图像识别任务,在目标检测的基础上进行图像掩码的分割以达到实例分割的效果,可以看作语义分割与目标检测的结合。Mask R-CNN是一种通用实例分割模型,在Faster R-CNN网络的基础上引入了掩码预测分支,并以ROI Align层替换Faster R-CNN网络中的ROI Pooling 层,避免了RPN网络输出的特征图不是按照像素对齐影响掩码预测分支精度的问题。

Mask R-CNN网络结构如图1所示,基本流程为:①将原始图像传入主干网络中获取特征图,对特征图中的每一点设定ROI,获得多个ROI候选框;
将ROI候选框输入区域生成网络(RPN)进行前景或后景的二值分类候选框回归,以获得目标的候选框。②获得特征图和候选框后,传入ROI Align层将特征图与目标的候选框进行匹配,并池化为固定大小,借助全连接层将特征图输入目标检测网络,利用分类分支对每个ROI区域输出对应的最大置信度标签。③检测分支预测并获得每个ROI区域的边界框。④掩码预测分支预测每个ROI最大置信度的分割掩码,将各分支输出进行汇总,得到包含目标类别、分类框和分割掩码的图像,完成像素级实例分割。

图1 Mask R-CNN网络结构

1.3 Mask R-CNN的改进

神经网络的深度是影响模型训练效果的重要因素,网络层数增加,意味着提取到的目标特征更丰富。但训练很深的神经网络是一件比较难的事情。随着神经网络层数的增加,网络学习的效果反而比层数较少的神经网络更差[23],这不仅是模型过拟合的原因,梯度爆炸或梯度消失成为训练更深的神经网络的阻碍,导致训练无法收敛。

He等[23]提出了深度残差网络(deep residual networks,ResNet),在不增加网络计算复杂度的前提下,解决了训练深层次神经网络梯度弥散而导致无法收敛的问题。笔者通过多次训练对比发现,对于混凝土坝裂缝的目标特征,Mask R-CNN骨干网络选取ResNet101时的识别效果比ResNet50更好(图2)。因为混凝土大坝裂缝属于精细的图像特征,更深层次的神经网络有利于进行精细识别,提高网络的特征抽象能力。但直接使用ResNet101的最后一层全连接层作为特征输出,对微小裂缝的特征检测效果较差。这是因为对于目标检测网络,浅层次网络提取的特征语义信息较少但目标位置准确;
深层次网络提取特征的语义信息丰富,但目标位置不够精准。特征金字塔网络(feature pyramid networks,FPN)[24]设计了上采样与侧向连接结合的结构,上采样可以获取更丰富语义信息,侧向连接可以获得更准确的目标位置信息。特征金字塔网络结构兼顾了底层特征和语义信息,不同尺度提取的特征都具有丰富的语义信息。因此,本文选取ResNet101+FPN作为Mask R-CNN的骨干网络对混凝土坝裂缝图像进行特征提取。

图2 不同层数ResNet网络下Mask R-CNN的训练过程对比

1.4 评价指标

为了更直观地评价Mask R-CNN对混凝土大坝裂缝图像的分割效果,选取损失函数、准确率、平均精确度(AP)定量地评估裂缝分割效果。

损失函数描述了模型预测值与真实值间的差距大小,其在训练过程中指导模型朝着收敛的方向前进。Mask R-CNN实例分割任务中,损失函数L=Lcls+Lbox+Lmask[21],其中Lcls、Lbox、Lmask分别为分类误差、检测误差和分割误差。损失函数越小,检测效果越好。

准确率A指在目标检测任务中,使用模型对数据集进行分类,分类正确的样本数占总样本数数的比例:

(3)

式中:TP为实际为正例且被分类器划分为正例的样本数;
TN为实际为正例且被分类器划分为负例的样本数;
FP为实际为负例但被分类器划分为正例的样本数;
FN为实际为负例且被分类器划分为负例的样本数。A越大,表示检测结果越准确。

平均精确度是使用coco数据集实现目标检测任务和实例分割任务的通用评价指标[21]。本文AP50、AP75、APS、APM、APL分别为交并比阈值为0.50、0.75及目标尺寸为小、中、大3个级别的平均精确度。

2.1 图像的采集与预处理

数据采集于中国西北地区某混凝土大坝,为了方便训练、提高训练速度,将5 616×3 744的原图分割后缩放为200×200的裂缝图像,并根据第1.1节的图像增强方法对裂缝图像进行预处理,以降低裂缝图像不利因素干扰。

考虑到混凝土坝裂缝形态特征多样、噪声干扰多、语义信息丰富的特点,选取500张包含单裂缝、多裂缝、交叉裂缝、龟裂等多种裂缝形态特征以及背景含有噪声干扰的裂缝图像,按照训练集、验证集测试集为3∶1∶1的比例划分数据集图像,即训练集300张、验证集100张、测试集100张,其中训练集用于模型训练,验证集用于模型验证及参数调整,测试集用于测试模型泛化能力。

Mask R-CNN属于有监督学习模型,需要对裂缝图像进行标注构建训练集。标注时沿着裂缝轮廓取点进行多边形的标注(图3),得到含有目标裂缝的轮廓掩码信息的json文件,最终json文件转化为coco数据集输入神经网络进行训练。

图3 裂缝图像标注过程

2.2 试验平台

本文采用的深度学习模型是商汤和香港中文大学联合开源的Mmdetection架构下的Mask R-CNN开源代码(https://github.com/open-mmlab/mmdetection),骨干网络使用ResNet101+FPN,在PC试验平台进行训练,试验平台配置:操作系统为Windows 10,CPU为AMD Ryzen 5 3600,GPU为GeForce GTX 1660 SUPER,GPU加速为CUDA 10.1+cuDNN7.6.5,深度学习框架为Pytorch1.6。

根据试验训练数据集和平台配置要求,模型训练配置参数设置如下:目标类别数为1,检测类别为“crack”;
批次处理大小为2,线程加载数为1;
训练轮次为100,初始学习率为0.02,并使用SGD优化器进行梯度下降优化,并采取在学习轮次为8和12后,学习率乘以0.1的学习策略。

2.3 结果分析

为验证本文模型对混凝土大坝裂缝图像分割的效果,按照第1.3节提出的改进方法进行模型训练,对训练过程进行损失函数和准确率的可视化输出。利用训练得到的权重文件,测试100张测试集图像的裂缝分割效果,并引入多种对比模型评估本文模型在测试集上的裂缝识别精确度和推理速度。

由图4可知,随着训练轮次的增加,损失函数不断降低,最终收敛在0.125附近,说明模型训练充分,收敛良好;
准确率随着训练轮次的增加不断升高最终逼近100%,说明随着模型的不断训练,裂缝图像的分割效果越来越好,证明本文模型对于混凝土大坝裂缝图像分割有着很强的可行性。

图4 Mask R-CNN训练过程可视化结果

如图5所示,面对多裂缝形态特征的图像,模型对每个裂缝单体进行了分割,掩码识别结果与预先标注掩码高度吻合,证明模型分割效果良好,实现了对裂缝图像的实例分割任务。

图5 测试集裂缝图像识别结果

为验证算法去噪效果,选取3张包含光照不均、噪声干扰和运动模糊干扰的裂缝图像进行图像预处理,结果如图6所示。经预处理,光照不均图像对比度明显增强,裂缝细节更加清晰;
噪声干扰图像裂缝周围背景像素变得更加平滑柔和,凸显了裂缝特征;
运动模糊图像裂缝明显清晰,证明本文采用的图像增强方法效果良好。模型基于处理后的裂缝图像实现裂缝识别和分割,说明改进Mask R-CNN模型能有效检测复杂条件下混凝土大坝裂缝图像。

表2 掩码分割平均精确度 单位:%

表3 模型推理速度

图6 复杂条件下裂缝图像预处理及识别结果

通过与Mask R-CNN-R50、Cascade-Mask R-CNN、Yolact++对比,在相同的数据集上训练并在测试集对训练成果进行评估,验证本文模型的优越性。Cascade-Mask R-CNN、Yolact++是目标检测领域近些年较新提出的实例分割模型,在目标检测领域有着良好的效果。不同模型在测试集上评估结果对比如表1~3所示。

表1 目标检测平均精确度 单位:%

由表1~3可知,改进Mask R-CNN模型比Mask R-CNN在目标检测和掩码分割两方面的平均精确度分别提升了40.7%和16.2%,图像识别精确度显著提升;
与Cascade-Mask R-CNN、Yolact++这2种较新模型相比,改进Mask R-CNN模型在掩码分割精确度方面也有一定的优势;
图像评估速度方面,Yolact++是一种检测速度非常快的实例分割模型,在coco数据集上最高可达33.5帧/s[25]。本文模型的评估速度优于其他对比模型,仅次于Yolact++模型,但由于GPU的限制,速度差距不是很明显。

改进Mask R-CNN对混凝土坝裂缝图像识别效果较好,可以实现裂缝图像实例分割,目标检测和分割掩码的平均精确度值达76.3和61.9;
与ResNet50结构相比,检测和分割平均精确度分别提升了40.7%和16.2%;
与Cascade-Mask R-CNN、Yolact++模型相比,分割精确度方面也有一定的优势;
模型推理速度方面,本文模型较Cascade-Mask R-CNN更有优势,仅次于推理速度较快的Yolact++模型,检测速度约为13.5帧/s。

现有研究内容下,模型对于混凝土大坝裂缝图像检测的性能尚有很大的提升空间,如水下检测时,考虑混凝土结构表面附着泥沙或水生动植物等噪声干扰,增加剥落、孔洞等多种大坝损伤特征和基于无人机搭载高清摄像头的大坝实时损伤识别等。

猜你喜欢掩码像素裂缝像素前线之“幻影”2000小哥白尼(军事科学)(2022年2期)2022-05-25基于RISC-V的防御侧信道攻击AES软件实现方案微处理机(2021年5期)2021-11-02碳酸盐岩裂缝描述七大难点石油与天然气地质(2021年3期)2021-06-29完美“切割”,裂缝之谜少儿美术(快乐历史地理)(2020年5期)2020-09-11“像素”仙人掌红领巾·萌芽(2019年8期)2019-08-27低面积复杂度AES低熵掩码方案的研究通信学报(2019年5期)2019-06-11地球的裂缝意林·全彩Color(2018年7期)2018-08-13基于布尔异或掩码转算术加法掩码的安全设计*通信技术(2018年3期)2018-03-21ÉVOLUTIONDIGAE Style de vie tactile中国与非洲(法文版)(2017年10期)2017-11-23高像素不是全部CHIP新电脑(2016年3期)2016-03-10

明翰范文网 www.tealighting.com

Copyright © 2016-2024 . 明翰范文网 版权所有

Powered by 明翰范文网 © All Rights Reserved. 备案号:浙ICP备16031184号-2

Top