使用深度学习进行语义分割 -凯发k8网页登录
此示例说明如何使用语义分割网络来分割图像。
语义分割网络对图像中的每个像素进行分类,从而生成按类分割的图像。语义分割的应用包括自动驾驶中的道路分割以及医疗诊断中的癌细胞分割。要了解详细信息,请参阅 (computer vision toolbox)。
此示例首先说明如何使用预训练的 deeplab v3 [1] 网络来分割图像,这是一种专门用于语义图像分割的卷积神经网络 (cnn)。其他类型的用于语义分割的网络包括全卷积网络 (fcn)、segnet 和 u-net。然后,您可以选择下载数据集,使用迁移学习来训练 deeplab v3 网络。此处所示的训练过程可以应用于其他类型的语义分割网络。
为了说明训练过程,此示例使用剑桥大学的 [2]。此数据集是包含驾驶时获得的街道级视图的图像集合。该数据集提供了 32 个语义类的像素级标签,包括汽车、行人和道路。
强烈推荐使用支持 cuda 的 nvidia™ gpu 来运行此示例。使用 gpu 需要 parallel computing toolbox™。有关支持的计算功能的信息,请参阅gpu computing requirements (parallel computing toolbox)。
下载预训练的语义分割网络
下载基于 camvid 数据集训练的 deeplab v3 的预训练版本。
pretrainedurl = 'https://ssd.mathworks.com/supportfiles/vision/data/deeplabv3plusresnet18camvid.zip'; pretrainedfolder = fullfile(tempdir,'pretrainednetwork'); pretrainednetworkzip = fullfile(pretrainedfolder,'deeplabv3plusresnet18camvid.zip'); if ~exist(pretrainednetworkzip,'file') mkdir(pretrainedfolder); disp('downloading pretrained network (58 mb)...'); websave(pretrainednetworkzip,pretrainedurl); end unzip(pretrainednetworkzip, pretrainedfolder)
加载该预训练网络。
pretrainednetwork = fullfile(pretrainedfolder,'deeplabv3plusresnet18camvid.mat');
data = load(pretrainednetwork);
net = data.net;
列出训练此网络来进行分类所用的类。
classes = string(net.layers(end).classes)
classes = 11×1 string
"sky"
"building"
"pole"
"road"
"pavement"
"tree"
"signsymbol"
"fence"
"car"
"pedestrian"
"bicyclist"
执行语义图像分割
读取包含训练网络进行分类所用的类的图像。
i = imread('highway.png');
将图像大小调整为网络的输入大小。
inputsize = net.layers(1).inputsize; i = imresize(i,inputsize(1:2));
使用 semanticseg
函数和预训练网络执行语义分割。
c = semanticseg(i,net);
使用 labeloverlay
将分割结果叠加在图像上。将叠加颜色图设置为由 camvid 数据集 [2] 定义的颜色图值。
cmap = camvidcolormap; b = labeloverlay(i,c,'colormap',cmap,'transparency',0.4); figure imshow(b) pixellabelcolorbar(cmap, classes);
虽然网络是基于城市驾驶的图像进行预训练的,但它在高速公路驾驶场景中也能生成理想的结果。为了改进分割结果,应使用包含高速公路驾驶场景的其他图像来重新训练网络。此示例的其余部分说明如何使用迁移学习来训练语义分割网络。
训练语义分割网络
此示例训练的 deeplab v3 网络具有从预训练的 resnet-18 网络初始化的权重。resnet-18 是一种高效的网络,非常适合处理资源有限的应用情形。根据应用要求,也可以使用 mobilenet v2 或 resnet-50 等其他预训练网络。有关详细信息,请参阅预训练的深度神经网络。
要获得预训练的 resnet-18,请安装 。安装完成后,运行以下代码以验证安装是否正确。
resnet18();
下载 camvid 数据集
从以下 url 下载 camvid 数据集。
imageurl = 'http://web4.cs.ucl.ac.uk/staff/g.brostow/motionsegrecdata/files/701_stillsraw_full.zip'; labelurl = 'http://web4.cs.ucl.ac.uk/staff/g.brostow/motionsegrecdata/data/labeledapproved_full.zip'; outputfolder = fullfile(tempdir,'camvid'); labelszip = fullfile(outputfolder,'labels.zip'); imageszip = fullfile(outputfolder,'images.zip'); if ~exist(labelszip, 'file') || ~exist(imageszip,'file') mkdir(outputfolder) disp('downloading 16 mb camvid dataset labels...'); websave(labelszip, labelurl); unzip(labelszip, fullfile(outputfolder,'labels')); disp('downloading 557 mb camvid dataset images...'); websave(imageszip, imageurl); unzip(imageszip, fullfile(outputfolder,'images')); end
注意:数据的下载时间取决于您的 internet 连接。下载完成之前,上面使用的命令会阻止 matlab。您也可以使用 web 浏览器先将数据集下载到本地磁盘。要使用从 web 下载的文件,请将上面的 outputfolder
变量更改为下载的文件的位置。
加载 camvid 图像
使用 加载 camvid 图像。通过 imagedatastore
可以高效加载磁盘上的大量图像。
imgdir = fullfile(outputfolder,'images','701_stillsraw_full'); imds = imagedatastore(imgdir);
显示其中一个图像。
i = readimage(imds,559); i = histeq(i); imshow(i)
加载 camvid 像素标注图像
使用 (computer vision toolbox) 加载 camvid 像素标签图像数据。pixellabeldatastore
将像素标签数据和标签 id 封装到类名映射中。
为了使训练更轻松,我们将 camvid 中的 32 个原始类分组为 11 个类。
classes = [ "sky" "building" "pole" "road" "pavement" "tree" "signsymbol" "fence" "car" "pedestrian" "bicyclist" ];
要将 32 个类减少为 11 个,需要将原始数据集中的多个类组合在一起。例如,"car" 是 "car"、"suvpickuptruck"、"truck_bus"、"train" 和 "othermoving" 的组合。使用支持函数 camvidpixellabelids
返回分组的标签 id,该函数在此示例的末尾列出。
labelids = camvidpixellabelids();
使用类和标签 id 创建 pixellabeldatastore.
。
labeldir = fullfile(outputfolder,'labels');
pxds = pixellabeldatastore(labeldir,classes,labelids);
读取一个像素标注图像,并将其叠加在图像上方显示。
c = readimage(pxds,559);
cmap = camvidcolormap;
b = labeloverlay(i,c,'colormap',cmap);
imshow(b)
pixellabelcolorbar(cmap,classes);
没有颜色叠加的区域没有像素标签,在训练过程中不被使用。
分析数据集统计信息
要查看 camvid 数据集中类标签的分布,请使用 (computer vision toolbox)。此函数按类标签计算像素数。
tbl = counteachlabel(pxds)
tbl=11×3 table
name pixelcount imagepixelcount
______________ __________ _______________
{'sky' } 7.6801e 07 4.8315e 08
{'building' } 1.1737e 08 4.8315e 08
{'pole' } 4.7987e 06 4.8315e 08
{'road' } 1.4054e 08 4.8453e 08
{'pavement' } 3.3614e 07 4.7209e 08
{'tree' } 5.4259e 07 4.479e 08
{'signsymbol'} 5.2242e 06 4.6863e 08
{'fence' } 6.9211e 06 2.516e 08
{'car' } 2.4437e 07 4.8315e 08
{'pedestrian'} 3.4029e 06 4.4444e 08
{'bicyclist' } 2.5912e 06 2.6196e 08
按类可视化像素计数。
frequency = tbl.pixelcount/sum(tbl.pixelcount);
bar(1:numel(classes),frequency)
xticks(1:numel(classes))
xticklabels(tbl.name)
xtickangle(45)
ylabel('frequency')
理想情况下,所有类都有相同数量的观测值。但是,camvid 中的类是不平衡的,这是街景汽车数据集的常见问题。此类场景的天空、建筑物和道路像素比行人和骑车人像素多,因为天空、建筑物和道路覆盖了图像中的更多区域。如果处理不当,这种不平衡可能对学习过程不利,因为学习会偏向于占主导的类。在此示例的稍后部分,您将使用类权重来处理此问题。
camvid 数据集中的图像大小为 720×960。选择合适的图像大小,以便在拥有 12 gb 内存的 nvidia™ titan x 上进行训练时,可以将一批足够大的图像放入内存中。如果您的 gpu 没有足够的内存,您可能需要将图像调整到较小的大小或减小训练批量大小。
准备训练集、验证集和测试集
使用数据集中 60% 的图像训练 deeplab v3 。其余的图像平分成 20% 和 20%,分别用于验证和测试。以下代码将图像和像素标签数据随机分成训练集、验证集和测试集。
[imdstrain, imdsval, imdstest, pxdstrain, pxdsval, pxdstest] = partitioncamviddata(imds,pxds);
60/20/20 拆分将产生以下数量的训练、验证和测试图像:
numtrainingimages = numel(imdstrain.files)
numtrainingimages = 421
numvalimages = numel(imdsval.files)
numvalimages = 140
numtestingimages = numel(imdstest.files)
numtestingimages = 140
创建网络
使用 deeplabv3pluslayers
函数基于 resnet-18 创建一个 deeplab v3 网络。为您的应用选择最佳网络需要根据经验分析,而且涉及另一级别的超参数调整。例如,您可以使用不同基础网络进行试验,如 resnet-50 或 mobilenet v2,您也可以尝试其他语义分割网络架构,如 segnet、全卷积网络 (fcn) 或 u-net。
% specify the network image size. this is typically the same as the traing image sizes. imagesize = [720 960 3]; % specify the number of classes. numclasses = numel(classes); % create deeplab v3 . lgraph = deeplabv3pluslayers(imagesize, numclasses, "resnet18");
使用类权重平衡类
如前文所示,camvid 中的类不平衡。要改善训练,您可以使用类权重来平衡类。使用先前通过 (computer vision toolbox) 计算的像素标签计数,计算具有中位数频率的类的权重。
imagefreq = tbl.pixelcount ./ tbl.imagepixelcount; classweights = median(imagefreq) ./ imagefreq
classweights = 11×1
0.3182
0.2082
5.0924
0.1744
0.7103
0.4175
4.5371
1.8386
1.0000
6.6059
⋮
使用 (computer vision toolbox) 指定类权重。
pxlayer = pixelclassificationlayer('name','labels','classes',tbl.name,'classweights',classweights); lgraph = replacelayer(lgraph,"classification",pxlayer);
选择训练选项
用于训练的优化算法是具有动量的随机梯度下降 (sgdm)。使用 指定用于 sgdm 的超参数。
% define validation data. dsval = combine(imdsval,pxdsval); % define training options. options = trainingoptions('sgdm', ... 'learnrateschedule','piecewise',... 'learnratedropperiod',10,... 'learnratedropfactor',0.3,... 'momentum',0.9, ... 'initiallearnrate',1e-3, ... 'l2regularization',0.005, ... 'validationdata',dsval,... 'maxepochs',30, ... 'minibatchsize',8, ... 'shuffle','every-epoch', ... 'checkpointpath', tempdir, ... 'verbosefrequency',2,... 'plots','training-progress',... 'validationpatience', 4);
学习率采用分段调度。学习率每 10 轮降低 0.3。这允许网络以更高的初始学习率快速学习,而一旦学习率下降,能够求得接近局部最优的解。
通过设置 'validationdata'
参数,在每轮都对照验证数据对网络进行测试。'validationpatience'
设置为 4,以在验证准确度收敛时提前停止训练。这可以防止网络对训练数据集进行过拟合。
使用大小为 8 的小批量以减少训练时的内存使用量。您可以根据系统上的 gpu 内存量增大或减小此值。
此外,'checkpointpath'
设置为临时位置。此名称-值对组让您能够在每轮训练结束时保存网络检查点。如果由于系统故障或停电而导致训练中断,您可以从保存的检查点处恢复训练。确保 'checkpointpath'
指定的位置有足够的空间来存储网络检查点。例如,保存 100 个 deeplab v3 检查点需要大约 6 gb 的磁盘空间,因为每个检查点大小为 61 mb。
数据增强
数据增强可通过在训练期间随机变换原始数据来提高网络准确度。通过使用数据增强,您可以为训练数据添加更多变化,而不必增加带标签的训练样本的数量。要对图像和像素标签数据应用相同的随机变换,请使用数据存储 combine
和 transform
。首先,合并 imdstrain
和 pxdstrain
。
dstrain = combine(imdstrain, pxdstrain);
接下来,使用数据存储 transform
应用在支持函数 augmentimageandlabel
中定义的所需数据增强。此处使用随机左/右翻转和随机 x/y 平移 /- 10 个像素来进行数据增强。
xtrans = [-10 10]; ytrans = [-10 10]; dstrain = transform(dstrain, @(data)augmentimageandlabel(data,xtrans,ytrans));
请注意,数据增强不适用于测试数据和验证数据。理想情况下,测试数据和验证数据应代表原始数据并且保持不变,以便进行无偏置的评估。
开始训练
如果 dotraining
标志为 true,则使用 开始训练。否则,请加载预训练的网络。
注意:训练在具有 12 gb gpu 内存的 nvidia™ titan x 上进行了验证。如果您的 gpu 内存较少,则训练期间可能内存不足。如果出现这种情况,请尝试在 trainingoptions
中将 'minibatchsize'
设置为 1,或减少网络输入并调整训练数据的大小。训练此网络大约需要 70 分钟。根据您的 gpu 硬件情况,可能需要更长时间。
dotraining = false; if dotraining [net, info] = trainnetwork(dstrain,lgraph,options); end
基于一个图像测试网络
要快速检验合理性,可基于一个测试图像运行经过训练的网络。
i = readimage(imdstest,35); c = semanticseg(i, net);
显示结果。
b = labeloverlay(i,c,'colormap',cmap,'transparency',0.4); imshow(b) pixellabelcolorbar(cmap, classes);
将 c
中的结果与 pxdstest
中存储的预期真实值进行比较。绿色和品红色区域突出显示了分割结果与预期真实值不同的区域。
expectedresult = readimage(pxdstest,35); actual = uint8(c); expected = uint8(expectedresult); imshowpair(actual, expected)
从视觉上看,语义分割结果与道路、天空和建筑物等类很好地重叠。然而,行人和汽车等较小的对象并不那么准确。可以使用交并比 (iou) 指标(也称为 jaccard 索引)来衡量每个类的重叠量。使用 (image processing toolbox) 函数计算 iou。
iou = jaccard(c,expectedresult); table(classes,iou)
ans=11×2 table
classes iou
____________ _______
"sky" 0.93418
"building" 0.86604
"pole" 0.37524
"road" 0.94517
"pavement" 0.85422
"tree" 0.91563
"signsymbol" 0.62075
"fence" 0.81075
"car" 0.71446
"pedestrian" 0.37249
"bicyclist" 0.69775
iou 指标印证了可视化的结果。道路、天空和建筑物类具有较高的 iou 分数,而行人和汽车等类的分数较低。其他常见的分割指标包括 (image processing toolbox) 和 (image processing toolbox) 轮廓匹配分数。
评估经过训练的网络
要衡量多个测试图像的准确度,请对整个测试集运行 (computer vision toolbox)。使用大小为 4 的小批量以减少分割图像时的内存使用量。您可以根据系统上的 gpu 内存量增大或减小此值。
pxdsresults = semanticseg(imdstest,net, ... 'minibatchsize',4, ... 'writelocation',tempdir, ... 'verbose',false);
semanticseg
将基于测试集的结果以 pixellabeldatastore
对象的形式返回。imdstest
中每个测试图像的实际像素标签数据都写入到 'writelocation'
参数指定的磁盘位置。使用 (computer vision toolbox) 基于测试集结果计算各个语义分割指标。
metrics = evaluatesemanticsegmentation(pxdsresults,pxdstest,'verbose',false);
evaluatesemanticsegmentation
返回基于整个数据集、单个类以及单个测试图像的各种指标。要查看数据集级别指标,请检查 metrics.datasetmetrics
。
metrics.datasetmetrics
ans=1×5 table
globalaccuracy meanaccuracy meaniou weightediou meanbfscore
______________ ____________ _______ ___________ ___________
0.89244 0.8657 0.66347 0.82837 0.69324
数据集指标提供了网络性能的高级概览。要查看每个类对整体性能的影响,请使用 metrics.classmetrics
检查每个类的指标。
metrics.classmetrics
ans=11×3 table
accuracy iou meanbfscore
________ _______ ___________
sky 0.94272 0.90979 0.90853
building 0.81488 0.79161 0.63963
pole 0.75997 0.24632 0.58505
road 0.93955 0.92638 0.80615
pavement 0.90048 0.73874 0.74538
tree 0.88173 0.7746 0.72892
signsymbol 0.76491 0.42338 0.53707
fence 0.83661 0.57442 0.5567
car 0.92588 0.79441 0.74331
pedestrian 0.86718 0.47077 0.64356
bicyclist 0.88881 0.6478 0.59473
尽管数据集整体性能非常高,但类指标显示,pedestrian
、bicyclist
和 car
等类表示不充分,分割效果不如 road
、sky
和 building
等类。增加包含更多表现不足类的样本的数据可能有助于改善结果。
支持函数
function labelids = camvidpixellabelids() % return the label ids corresponding to each class. % % the camvid dataset has 32 classes. group them into 11 classes following % the original segnet training methodology [1]. % % the 11 classes are: % "sky" "building", "pole", "road", "pavement", "tree", "signsymbol", % "fence", "car", "pedestrian", and "bicyclist". % % camvid pixel label ids are provided as rgb color values. group them into % 11 classes and return them as a cell array of m-by-3 matrices. the % original camvid class names are listed alongside each rgb value. note % that the other/void class are excluded below. labelids = { ... % "sky" [ 128 128 128; ... % "sky" ] % "building" [ 000 128 064; ... % "bridge" 128 000 000; ... % "building" 064 192 000; ... % "wall" 064 000 064; ... % "tunnel" 192 000 128; ... % "archway" ] % "pole" [ 192 192 128; ... % "column_pole" 000 000 064; ... % "trafficcone" ] % road [ 128 064 128; ... % "road" 128 000 192; ... % "lanemkgsdriv" 192 000 064; ... % "lanemkgsnondriv" ] % "pavement" [ 000 000 192; ... % "sidewalk" 064 192 128; ... % "parkingblock" 128 128 192; ... % "roadshoulder" ] % "tree" [ 128 128 000; ... % "tree" 192 192 000; ... % "vegetationmisc" ] % "signsymbol" [ 192 128 128; ... % "signsymbol" 128 128 064; ... % "misc_text" 000 064 064; ... % "trafficlight" ] % "fence" [ 064 064 128; ... % "fence" ] % "car" [ 064 000 128; ... % "car" 064 128 192; ... % "suvpickuptruck" 192 128 192; ... % "truck_bus" 192 064 128; ... % "train" 128 064 064; ... % "othermoving" ] % "pedestrian" [ 064 064 000; ... % "pedestrian" 192 128 064; ... % "child" 064 000 192; ... % "cartluggagepram" 064 128 064; ... % "animal" ] % "bicyclist" [ 000 128 192; ... % "bicyclist" 192 000 192; ... % "motorcyclescooter" ] }; end
function pixellabelcolorbar(cmap, classnames) % add a colorbar to the current axis. the colorbar is formatted % to display the class names with the color. colormap(gca,cmap) % add colorbar to current figure. c = colorbar('peer', gca); % use class names for tick marks. c.ticklabels = classnames; numclasses = size(cmap,1); % center tick labels. c.ticks = 1/(numclasses*2):1/numclasses:1; % remove tick mark. c.ticklength = 0; end
function cmap = camvidcolormap() % define the colormap used by camvid dataset. cmap = [ 128 128 128 % sky 128 0 0 % building 192 192 192 % pole 128 64 128 % road 60 40 222 % pavement 128 128 0 % tree 192 128 128 % signsymbol 64 64 128 % fence 64 0 128 % car 64 64 0 % pedestrian 0 128 192 % bicyclist ]; % normalize between [0 1]. cmap = cmap ./ 255; end
function [imdstrain, imdsval, imdstest, pxdstrain, pxdsval, pxdstest] = partitioncamviddata(imds,pxds) % partition camvid data by randomly selecting 60% of the data for training. the % rest is used for testing. % set initial random state for example reproducibility. rng(0); numfiles = numel(imds.files); shuffledindices = randperm(numfiles); % use 60% of the images for training. numtrain = round(0.60 * numfiles); trainingidx = shuffledindices(1:numtrain); % use 20% of the images for validation numval = round(0.20 * numfiles); validx = shuffledindices(numtrain 1:numtrain numval); % use the rest for testing. testidx = shuffledindices(numtrain numval 1:end); % create image datastores for training and test. trainingimages = imds.files(trainingidx); valimages = imds.files(validx); testimages = imds.files(testidx); imdstrain = imagedatastore(trainingimages); imdsval = imagedatastore(valimages); imdstest = imagedatastore(testimages); % extract class and label ids info. classes = pxds.classnames; labelids = camvidpixellabelids(); % create pixel label datastores for training and test. traininglabels = pxds.files(trainingidx); vallabels = pxds.files(validx); testlabels = pxds.files(testidx); pxdstrain = pixellabeldatastore(traininglabels, classes, labelids); pxdsval = pixellabeldatastore(vallabels, classes, labelids); pxdstest = pixellabeldatastore(testlabels, classes, labelids); end
function data = augmentimageandlabel(data, xtrans, ytrans) % augment images and pixel label images using random reflection and % translation. for i = 1:size(data,1) tform = randomaffine2d(... 'xreflection',true,... 'xtranslation', xtrans, ... 'ytranslation', ytrans); % center the view at the center of image in the output space while % allowing translation to move the output image out of view. rout = affineoutputview(size(data{i,1}), tform, 'boundsstyle', 'centeroutput'); % warp the image and pixel labels using the same transform. data{i,1} = imwarp(data{i,1}, tform, 'outputview', rout); data{i,2} = imwarp(data{i,2}, tform, 'outputview', rout); end end
参考资料
[1] chen, liang-chieh et al.“encoder-decoder with atrous separable convolution for semantic image segmentation.”eccv (2018).
[2] brostow, g. j., j. fauqueur, and r. cipolla."semantic object classes in video:a high-definition ground truth database."pattern recognition letters.vol. 30, issue 2, 2009, pp 88-97.
另请参阅
(computer vision toolbox) | (computer vision toolbox) | (computer vision toolbox) | (image processing toolbox) | (computer vision toolbox) | (computer vision toolbox) | (computer vision toolbox) | | | | (computer vision toolbox)
相关主题
- (computer vision toolbox)
- (computer vision toolbox)
- 预训练的深度神经网络