卷积神经网络在生物医学图像上的应用进展(2)
以LeNet-5 为基础的CNN 模型在近些年得到了不断改进,模型性能也得到了极大提高。
1.2 CNN模型的架构设计
图1 2017—2019年底CNN在生物医学图像分析的应用统计
图2 CNN及其在生物医学图像分析上的应用发展
CNN模型发展过程中,其优化方式涉及架构设计、激活函数和优化策略的改进等。CNN模型的架构设计对于CNN 模型的性能提升起了很大作用。在CNN 模型发展初期,架构设计主要集中在模型深度、宽度方面。
提升模型深度,能够增强模型的抽象能力。一个更深的模型往往拥有更好的特征提取能力,但其优化过程也更困难,会出现梯度爆炸或梯度弥散等问题。LeNet-5 由3 个卷积层、2 个池化层、2 个全连接层组成。2012年,Krizhevsky等[7]提出的AlexNet模型则由5个卷积层、5 个池化层、3 个全连接层组成。AlexNet 模型中使用ReLU 激活函数替换Sigmoid 函数,来解决梯度弥散问题;使用Dropout 方法在训练时随机丢弃输出来防止过拟合现象的发生。AlexNet 模型将ImageNet 图像分类数据集[8]的Top-5错误率降低到16.42%,以极大的优势获得2012 年冠军。2014 年,由牛津大学视觉组提出的VGG模型[9]深度比AlexNet模型提升了一倍。VGG模型中使用多个小卷积核来替换AlexNet 中的大卷积核,在减小计算量的同时增加了模型深度,丰富了模型非线性表达能力。VGG 模型在ImageNet 数据集上Top-5 错误率降低到6.8%。然而,研究表明,增加模型深度对模型性能提升是有限的。这主要由如下两个原因导致:一是当模型宽度过窄,每层提取的特征有限,增加模型深度也难以完全表达任务特征;二是深层模型仍会因梯度消失而优化困难。在这之后的模型设计针对这两个方面进行了针对性改进。
拓展模型宽度,能够丰富模型提取的特征。模型的宽度,即每层特征通道数量,决定着模型每一层可以提取的特征图的规模。常用的方法有直接调整通道数量,多分支网络结构设计,通道特征融合。AlexNet 与VGG 模型在增加深度的同时,通过直接增加每层的通道数量来扩展模型的宽度。2014 年,由Szegedy 等[10]提出的GoogLeNet 模型使多分支网络结构设计来拓展模型宽度。该分支结构被称为Inception 结构,主要由1×1、3×3、5×5 卷积核和3×3 最大池化操作4 个分支组合而成。不同大小的卷积核可以从图像中提取不同尺度的特征,丰富模型表达能力。GoogLeNet 模型使得ImageNet 分类Top-5 错误率降低到了6.67%,在精度和速度上均高于VGG,获得2014 年冠军。此后Inception结构不断迭代发展,在Inception v2模型[11]引进了BN层来加快模型收敛速度并防止过拟合,Inception v3 模型[12]采用卷积拆分的思想,减少计算量,Inception v4模型[13]使用残差连接来降低计算开销。模型的宽度过宽会造成参数冗余,增加过拟合的风险。
残差连接,降低深层模型的收敛难度。梯度消失造成深层次的网络训练困难。2015 年,He 等[14]提出的ResNet 模型使用残差连接来解决梯度消失问题。残差连接的思想是,在模型设计中引入恒等变换,使得模型训练过程中能够学习信号的差值,从而增强了模型的反向梯度传播,简化了学习过程。ResNet模型将ImageNet图像分类Top-5错误率降低到了3.57%。由于使用残差连接可以使得模型更深,更容易训练,该方法是CNN模型设计中最常用的结构之一。2016年,DenseNet模型[15]设计的dense block进一步发展了残差连接,将模块内的每一层都与其他层相连,在加深模型的同时提高模型特征的利用率,相比ResNet使用的参数量和计算量更低。
增加深度和宽度是初期的CNN模型提高性能的关键因素,但也存在一定上限,且容易导致优化困难、过拟合、计算量大难以部署的问题。之后,新的CNN模型的架构设计主要通过探索能够有效利用数据特征的方法以及能够降低计算量的特殊卷积操作来解决上述问题。
提高数据特征利用的方法主要有,融合浅层和深层特征,增加感受野,使用注意力机制等。跳层连接能够融合模型浅层和深层不同语义级别的特征信息,增强模型的特征表达能力。跳连接常被用于改善分割模型上采样阶段空间信息不足,提高分割的精度,如FCN[16]、U-Net[17]、SegNet[18]等模型。改善感受野常用的方法有多尺度和空洞卷积。多尺度模型的设计方案主要采用多尺度图像输入、融合多尺度特征以及融合多尺度预测结果的方法来获得不同感受野。空洞卷积则通过加大卷积核各像素的间距来增加模型的感受野。丰富的感受野,可以使得模型更好地获得上下文信息,这对于多尺度的图像分割任务是十分重要的。如Deeplab v3[19]使用空洞卷积和多尺度特征融合方法设计了ASPP(Atrous Spatial Pyramid Pooling)模块,有效地利用了上下文信息,提高了模型对不同尺度物体的分割精度。注意力机制能够使模型自动选择图像空间中、通道间对于任务最重要的部分进行下一步处理。注意力机制主要分为空间和通道注意力两种设计方法。空间注意力模型能够定位感兴趣区域,通道注意力模型能够建模不同通道特征重要程度。2017年,SENet模型[20]利用通道注意力机制学习通道间相关性,突显重要的特征通道,抑制不重要的特征通道,将ImageNet分类的Top-5错误率降低到了2.25%,获得最后一届的冠军。注意力机制可以直接嵌入到不同模型中,因此是最为常用的改进方法之一。
文章来源:《生物医学工程学杂志》 网址: http://www.swyxgcxzzzz.cn/qikandaodu/2021/0619/606.html