您好,欢迎来到抵帆知识网。
搜索
您的当前位置:首页全局特征提取的全卷积网络图像语义分割算法

全局特征提取的全卷积网络图像语义分割算法

来源:抵帆知识网
第41卷 第7期 红 外 技 术 Vol.41 No.7

2019年7月 Infrared Technology July 2019

〈图像处理与仿真〉

全局特征提取的全卷积网络图像语义分割算法

李瀚超,蔡 毅,王岭雪

(北京理工大学 光电学院纳米光子学与超精密光电系统北京市重点实验室,光电成像技术与系统教育部重点实验室,北京 100081)

摘要:以全卷积神经网络为基础设计图像语义分割算法框架,设计全局特征提取模块提升高维语义特

征的提取能力,引入带孔卷积算子保留图像细节并提升分割结果的分辨率。通过搭建端到端的图像语义分割算法框架进行训练,在可见光数据集上对算法框架进行性能评估,结果表明,本文方法在可见光图像上取得良好的语义分割性能和精度。本文还在不借助红外数据标注训练的情况下对红外图像进行分割,结果证明本文方法在典型红外目标如行人、车辆的分割中也有较好的表现。 关键词:全卷积神经网络;热图像;红外图像;带孔卷积;全局特征;语义分割

中图分类号:TP391.4 文献标识码:A 文章编号:1001-81(2019)07-0595-05

Image Semantic Segmentation Based on

Fully Convoluted Network with Global Feature Extraction

LI Hanchao,CAI Yi,WANG Lingxue

(School of Optics and Photonics, Beijing Institute of Technology, Beijing Key Laboratory of Nanophotonics and Ultrafine Optoelectronic Systems, Key Laboratory of Photoelectronic Imaging Technology and System, Ministry of Education of China, Beijing 100081, China)

Abstract:We employed a fully convoluted network to perform the image semantic segmentation task. In detail, we introduced a global feature extraction module to enhance the high-level semantic feature extraction ability. Furthermore, we adopted the dilate convolution operation to preserve image details and increase the resolution of prediction results. We evaluated and analyzed our end-to-end semantic segmentation algorithm on visible image datasets. The results demonstrated that our proposed approach achieved a satisfactory accuracy and better visual effect. We also evaluated our framework on infrared images without training of semantic labels. The results have shown that our algorithm can obtain significance visualization on classical objects segmentation such as humans and cars. Key words:fully convoluted networks,thermal images,infrared images,dilate convolution,global feature,semantic segmentation

割结果的重构能力。多尺度特征提取能够提升复杂场景下的语义分割鲁棒性,在此之后的研究主要集中在设计优化图像金字塔算法来增强多尺度特征的提取能力,Chen等人[3]通过设置不同尺度的带孔卷积算子,实现多尺度空间金字塔的特征提取。Zhao等人[4]则直接通过池化操作得到不同尺度的特征图来构成特征金字塔。基于带孔卷积和池化技术的图像金字塔设计对语义分割效果带来了一定程度的提升。

然而,目前的语义分割研究中没有充分利用全局特征对语义信息提取的贡献,因此,本文设计了一种

0 引言

图像语义分割是对输入图像进行逐像素的类别分类,实现目标和场景的像素级分割。近年来,基于全卷积神经网络的图像语义分割技术得到迅速发展[1-4],呈现的主要发展趋势为:Long等人[1]在2015年提出采用全卷积的神经网络设计,实现了像素到像素对应的类别预测,从而成为卷积神经网络用于图像语义分割的开端。Ronneberger等人[2]提出将全卷积网络设计为编码-解码结构,通过引入解码器提升语义分

收稿日期:2019-04-23;修订日期:2019-07-05. 作者简介:李瀚超(1994-),男,硕士生,主要从事图像处理、图像语义分割技术方面的研究。E-mail:lihanchao@bit.edu.cn。 通信作者:王岭雪(1973-),女,副教授,工学博士,主要从事红外成像、图像处理和红外光谱的研究工作。E-mail:neobull@bit.edu.cn。 基金项目:国家自然科学基金(61471044)。 595 第41卷 第7期 红 外 技 术 Vol.41 No.7

2019年7月 Infrared Technology July 2019

全局特征提取模块来增强全卷积网络的语义特征提取能力,具体使用的基础网络为残差卷积神经网络Resnet-50[5],并引入带孔卷积算子提升特征图的分辨率。通过在PASCALVOC2012可见光图像语义分割数据集上进行训练测试,本文验证了所设计的全局特征提取模块对于全卷积网络语义分割性能的提升。同时,在VOT-TIR红外图像中进行测试评估,在不借助红外数据标注训练的情况下对图像进行分割,结果

证明了本文方法在典型红外目标如行人、车辆的分割中也有较好的表现。

1 全局特征提取的全卷积网络图像语义分割算法框架设计

本文设计的语义分割网络框架如图1所示,从左至右依次是输入图像、全卷积网络、全局特征提取模块、双线性上采样和输出的分割结果。

图1 语义分割算法框架 Fig.1 Semantic segmentation architecture

选用Resnet-50网络作为全卷积网络[1]的基础网

络。Resnet网络相比于传统的VGG网络[6]实现了更优异的性能和较小的计算量。其特点是在卷积层中引入“跳跃连接”(Skip connection),使得网络能够学习图像特征的残差形式H(x)=F(x)+x,进而提升网络的特征学习能力以及网络训练的收敛速度。

Resnet-50的网络参数如表1所示。其中,在conv3_x~conv5_x的卷积模块中,各模块第一层卷积采用stride=2的步长设置实现下采样。

表1 本文使用的Resnet-50网络结构

Table 1 Resnet-50 architecture for semantic segmentation

Layer name conv1

Output size 256×256

Layer configurations 7×7, , stride 2 3×3maxpool,stride 2

conv2_x 128×128 conv5_x中的普通卷积操作更改为带孔卷积算子,对应的参数r分别设置为2和4,r表示填充0后卷积核相邻权重的步长。同时去除网络在上述两个位置中的下采样操作,保持卷积网络的特征图分辨率在Block4、Block5中保持不变。使得网络输出端上采样倍数由×32降低到×8,进而减少了图像特征及结构细节损失。

2 全局特征提取模块的设计

卷积神经网络具有较强的高维特征提取能力,通过卷积操作提取的局部高维特征进行语义分割时往往会一定程度地丢失全局信息,进而导致在目标边缘或者复杂度较高的场景细节时出现分类错误。

因此,本文在图1所示的Resnet-50网络输出端引入全局特征提取模块。模块结构如图2所示,全局特征提取模块由全局池化操作和卷积操作组成。全局池化操作提取输入特征图c×h×w中每个通道的全局平均响应,并输出c×1×1维度的特征矢量,其中c为特征图的通道数,h、w分别是特征图的高、宽。后续的卷积操作用于对该特征矢量的进一步特征提取和学习,模块的输出维度仍为c×1×1。

11,33,311,256

conv3_x × 11,12833,128411,512

conv4_x

32×32 (×,r=2) 16×16 (×,r=4)

11,25633,256611,102411,51233,512311,2048

conv5_x

图2 全局特征提取模块的设计

Fig.2 Architecture of global feature extraction module

Resnet-50网络中的下采样操作会引起特征图分

辨率的降低,进而一定程度上导致特征信息的丢失。本文的语义分割框架使用带孔卷积[3]解决特征信息丢失的问题。具体做法为:将Resnet-50的conv4_x、596 

全局特征提取模块输出的c×1×1特征矢量包含当前特征图中每个通道的全局信息,通过与基础网络输出的c×h×w特征图进行对应通道的矩阵点积操

第41卷 第7期 Vol.41 No.7 2019年7月 李瀚超等:全局特征提取的全卷积网络图像语义分割算法 July 2019

作,可以对当前特征图的通道信息进行筛选和重新组合,同时起到引入全局信息的作用。卷积的计算过程表示为:

D

ykF(x;w)wkxl

(1)

l1

式中:yk表示该模块输出特征图的第k通道的特征;w表示卷积算子;D为输入特征图的总通道数;xl为输入特征图第l通道的特征。通过全局特征的引入,全局特征提取模块的输出特征图可表示为:

ywx=y11111

(2) 

KyKKwKxD

式中:

为通过全局池化之后所学习得到的全局特征

矢量。K为输出特征图的总通道数。由公式(2)可以看出,全局特征提取模块通过在卷积算子和输入特征的卷积操作中引入通道权重系数i,来实现全局信息的引入和特征图通道特征的选取。

3 实验和评估

3.1 可见光数据集

本文首先在可见光数据集上测试评估全局特征提取的全卷积网络图像语义分割算法性能。目前,PASCALVOC数据集作为目标检测和图像语义分割算法的一个标准研究平台得到广泛使用,它共包含分类、目标检测、关键点检测等数据。本文使用PSASCALVOC2012图像语义分割数据集,共标注20类前景目标和1个背景标注,包含14张训练图片、1449张验证图片和1456张测试图片。本文采用的训练数据集通过伯克利大学提供的SBD数据集[7]进行补充后,共有10582张训练图片,验证集和测试集保持不变。

3.2 训练参数设置

网络采用SBD数据补充后的VOC2012训练数据集进行训练,卷积网络的图像输入分辨率固定为512×512,mini-batch为24,初始化学习率(lr_init)为

4×10-

3,学习率下降采用“poly”策略[3],其学习率

power

由公式lr_init(1

iter

max_iter

)得到。最大训练迭代

次数为60×103次,power取值为0.9。本实验在Ubuntu18.04系统上采用Pytorch框架实现,采用CUDA10,并通过多卡并行来实现训练加速,GPU型号:NVIDIA1080Ti。

3.3 可见光数据集的评估结果

采用平均像素精度、平均区域交并比(Intersection over Union,IoU)和非背景类的平均区域交并比来评价分割结果的像素精度和区域精度。nij表示像素应属于类别i但被误分类为类别j。ncl为总类别数,其中包含一个背景类。tijnij表示类别i的误判像素个数[1]。

平均像素精度:

MPA(1/ncl)nii/ti

(3)

i

平均IoU:

MIoU(1/ncl)nii/(tinjinii)

(4)

i

j

非背景类的平均IoU计算与公式(4)相同,区别在于只计算(ncl-1)个非背景类别中的平均IoU。其中,平均IoU为主要的观测指标。精度评测及分割结果可视化在VOC2012验证数据集上进行。

表2展示了在VOC2012验证数据集上的算法精度比较。其中,“Res50”表示卷积网络中只采用Resnet-50、不包含带孔卷积及全局特征提取模块时的结果;“DC”表示卷积网络中采用带孔卷积算子;GF”表示卷积网络中采用全局特征提取模块。对于各个算子和模块我们分别进行对比实验。从所有类别的平均IoU可以看出,采用带孔卷积算子之后,分割精度从“Res50”的0.687提升到“Res50+DC”的0.692,但提升幅度较小,因为带孔卷积算子主要是在一定程度上减少了图像特征及结构细节的损失,对语义特征的提取帮助较小。而单独采用全局特征提取模块“GF”后,“Res50+GF”相比于“Res50”提升接近4%,这说明全局特征是语义分割中一个关键因素,对分割精度的影响至关重要。本文提出的网络模型“Res50+GF+DC”取得了高达0.745的平均IoU精度,高于采用CRF传统算法的CRF-RNN[8]和采用空间金字塔设计的DeepLab[3]框架的分割精度。表2中的结果表明,本文提出的全局特征提取的全卷积网络具有较好的语义分割性能。

图3展示了所设计算法在VOC 2012验证数据集上的分割可视化结果。从可视化结果来看,最终的网络算法框架在可见光数据集上取得了理想的分割效果。通过全局特征提取模块,语义分割网络能够很好地纠正原始预测结果的语义错误,同时在目标的缺失区域进行补全。如图3(b2)中“Res50”无法分割出飞机的机翼,但在图3(c2)中“Res50+GF”就能够通过全局特征对其进行补全;以及图3(b3)中“Res50”对车辆存在分割错误,在图3(c3)中“Res50+GF”也能

597 

“第41卷 第7期 红 外 技 术 Vol.41 No.7

2019年7月 Infrared Technology July 2019

表2 VOC验证集的可见光图像语义分割精度对比

Table 2 Comparison of semantic segmentation accuracy on VOC val dataset

Method MPA MIoU No Background MIoU Res50 0.926 0.687 0.676 Res50+DC Res50+GF CRF-RNN[8]

0.929 0.692 0.933 0.721 - 0.696

0.684 0.710 0.736 -

Res50+GF+DC 0.941 0.745

DeepLab[3] - 0.716 -

够通过全局特征进行矫正。在此基础上,引入带孔卷

积算子后,通过“Res50+GF”和“Res50+GF+DC”的可视化比较,我们能直观看出目标像素的分割边缘细节得到了提升。

3.4 红外图像数据的测试结果

红外图像与可见光图像相比,场景的高频细节较少,人和车辆等典型红外目标的灰度分布相对较为均匀,所以全局特征是红外目标的一个重要特征之一。另一方面,迄今为止国际上仍然没有图像数量丰富的标准化红外图像数据集,阻碍了红外图像语义分割技术的快速发展。因此,基于这些考虑,本文提出把在可见光数据集上已验证测试成功的网络直接在红外

(a1) (b1) 图像上进行测试。红外图像测试数据来自VOT-TIR2016的25个红外图像序列,包括人、汽车、树木、建筑等常见目标场景。

通过将可见光数据集训练得到的卷积网络权重固定,我们在红外数据集上测试所设计算法的性能表现。图4展示了算法在VOT-TIR红外数据集上的测试结果。可以看出,相比于原始的“Res50”网络,在输入图像质量较差的条件下,我们的最终网络“Res50+GF+DC”仍然能够对人、汽车目标进行较为准确的分割。相比于“Res50”网络的可视化结果,全局特征提取模块仍然能够对预测结果中缺失的目标类进行纠正和补充。

(c1) (d1) (e1) (a2) (b2) (c2) (d2) (e2) (a3) (b3) (c3) (d3) (e3)

图3 VOC验证集的可见光图像语义分割结果示例。(a1)~(a3)为原始图像,(b1)~(b3)为“Res50”预测结果,(c1)~(c3)为“Res50

+GF”预测结果,d1~d3为“Res50+GF+DC”预测结果,(e1)~(e3)为图像标签

Fig.3 Visible images visualization on VOC val dataset (a1)-(a3) are original images. (b1)-(b3)are “Res50” results. (c1)-(c3) are

“Res50+GF” results.(d1)-(d3) are “Res50+GF+DC” results. (e1)-(e3) are image labels

598 

第41卷 第7期 Vol.41 No.7 2019年7月 李瀚超等:全局特征提取的全卷积网络图像语义分割算法 July 2019

(a1) (b1) (c1) (a2) (b2) (c2) (a3) (b3) (c3) (a4) (b4) (c4) (a5) (b5) (c5)

图4 VOT-TIR红外图像语义分割结果(a1)~(a5)为原始图像,(b1)~(b5)为“Res50”预测结果,(c1)~(c5)为“Res50+GF+DC”

预测结果

Fig.4 Visualization results on VOT-TIR infrared images (a1)-(a5) are original images. (b1)-(b5) are “Res50” results. (c1)-(c5)are

“Res50+GF+DC” results

4 结论

本文基于全卷积神经网络,提出一种基于全局特征的图像语义分割方法,并通过引入带孔卷积技术进一步提升网络性能。通过在Pytorch平台上构建算法框架,并在可见光及红外数据集上进行测试评估,证明了所设计算法的有效性。实验结果表明,本文方法能够在可见光数据集上实现较精细的像素级目标识别,同时对红外图像也能有较好的分割表现。在进一步的工作中,我们将从算法模型及红外数据标注两方面做出优化和改进,进一步提升图像语义分割在红外

数据中的表现。 参考文献:

[1] Long J, Shelhamer E, Darrell T. Fully convolutional networks for

semantic segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2014, 39(4): 0-651.

[2] Ronneberger O, Fischer P, Brox T. U-Net: Convolutional Networks for

Biomedical Image Segmentation[C]//International Conference on Medical Image Computing & Computer-assisted Intervention, 2015.

(下转第615页)

599 

第41卷 第7期 Vol.41 No.7 2019年7月 高 军等:基于全卷积神经网络的卫星遥感图像云检测方法 July 2019

[33] SHAO Z, DENG J, WANG L, et al. Fuzzy AutoEncode Based Cloud

Detection for Remote Sensing Imagery[J]. Remote Sensing, 2017, 9(4): 311.

[34] Reguiegue M, Chouireb F. Automatic day time cloud detection over land

and sea from MSG SEVIRI images using three features and two artificial intelligence approaches[J]. Signal Image & Video Processing, 2017, 12(3): 1-8.

[35] Choi H, Bindschadler R. Cloud detection in Landsat imagery of ice

sheets using shadow matching technique and automatic normalized difference snow index threshold value decision[J]. Remote Sensing of Environment, 2004, 91(2): 237-242.

[36] 刘志刚, 李元祥, 黄峰. 基于动态聚类的MODIS云检测算法[J]. 遥

感信息, 2007(4): 33-35.

LIU Zhigang, LI Yuanxiang, HUANG Feng. MODIS cloud detection algorithm based on dynamic clustering[J]. Remote Sensing Information, 2007(4): 33-35.

[37] 王伟, 宋卫国, 刘士兴, 等. Kmeans聚类与多光谱阈值相结合的

MODIS云检测算法[J]. 光谱学与光谱分析, 2011, 31(4): 1061-10. WANG Wei, SONG Weiguo, LIU Shixing, et al. A Cloud Detection Algorithm for MODIS Images Combining Kmeans Clustering and Multi-Spectral Threshold Method[J]. Spectroscopy and spectral analysis, 2011, 31(4): 1061-10. [38] HE K, ZHANG X, REN S, et al. Identity Mappings in Deep Residual

Networks[J].󰀃Computer Vision – ECCV, 2016, 9908: 630-5.

[39] HUANG G, LIU Z, Laurens V D M, et al. Densely Connected

Convolutional Networks[J]. IEEE Conference on Computer Vision & Pattern Recognition, 2017: 2261-2269.

[40] Jégou, Simon, Drozdzal M , Vazquez D , et al. The One Hundred Layers

Tiramisu: Fully Convolutional DenseNets for Semantic Segmentation[J]. IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 2017: 1175-1183.

[41] Krähenbühl, Philipp, Koltun V . Efficient Inference in Fully Connected

CRFs with Gaussian Edge Potentials[J]. NIPS'11 Proceedings of the 24th International Conference on Neural Information Processing Systems, 2012: 109-117.

[42] 高军, 王恺, 田晓宇, 等. 基于BP神经网络的风云四号遥感图像云

检测算法[J]. 红外与毫米波学报, 2018, 37(4): 477-485.

GAO Jun, WANG Kai, TIAN Xiaoyu, et al. A BP-NN based cloud detection method for FY-4 remote sensing images[J]. Journal of Infrared and Millimeter Wave, 2018, 37(4): 477-485.

[43] Griggin M, Burke H H, Mandl D, et al. Cloud cover detection algorithm

for EO-1 Hyperion imagery[C]//Geoscience and Remote Sensing Symposium, IEEE, 2003: 86-.

(上接第599页)

[3] Chen L C , Papandreou G , Kokkinos I , et al. DeepLab: Semantic Image

Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs[J]. IEEE Transactions on Pattern Analysis &Machine Intelligence, 2016, 40(4): 834-848.

[4] ZHAO H, SHI J, QI X, et al. Pyramid scene parsing network[C]//

Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 2881-20.

[5] HE K, ZHANG X, REN S, et al. Deep residual learning for image

recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770-778.

[6] Simonyan K, Zisserman A. Very deep convolutional networks for

large-scale image recognition[J]. Computer Science, 2014: 1409-1556. [7] Premachandran V, Bonev B, Lian X, et al. Pascal boundaries: A semantic

boundary dataset with a deep semantic boundary detector[C]//IEEE Winter Conference on Applications of Computer Vision (WACV). IEEE, 2017: 73-81.

[8] ZHENG S, Jayasumana S, Romera-Paredes B, et al. Conditional random

fields as recurrent neural networks[C]//Proceedings of the IEEE International Conference on Computer Vision, 2015: 1529-1537.

615

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- dfix.cn 版权所有 湘ICP备2024080961号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务