责任编辑共5400字,提议写作15两分钟
在借助CNNs展开影像语法拆分时,有许多特别针对数据业务的技术创新点,主要就主要就包括了新脊髓构架和新模块或层的内部结构设计。该文的前半部本局对药理学影像拆分应用领域中数据业务内部结构设计的应用应用领域展开了剖析。
责任编辑归纳了借助CNNs展开影像语法拆分时,特别针对数据业务的技术创新,那些技术创新点主要就主要就包括新脊髓构架的内部结构设计(相同广度、长度、相连和流形内部结构)和新模块或层的内部结构设计。前者是借助已近的模块装配繁杂的小型互联网,前者是更偏重于内部结构设计下层模块。具体来说如是说许多经典之作的语法拆分互联网或其技术创新点,接着如是说数据业务内部结构设计在药理学影像拆分应用领域内的许多应用应用领域。
1. 影像语法拆分数据业务技术创新
1.1 FCN互联网
FCN总体构架洛佐韦
原则上将FCN互联网列出来原因在于FCN互联网是第二个从崭新的视角来化解语法拆分难题的互联网。在此之前的如前所述脊髓互联网的影像语法拆分互联网是借助静待进行分类画素点为服务中心的影像块来预估服务中心画素的条码,通常用CNN+FC的思路构筑互联网,或许此种方式难以借助影像的自上而下语句重要信息,所以逐画素逻辑推理速率较低;而FCN互联网抛弃全相连层FC,全数用传递函数层构筑互联网,透过单位矩阵传递函数和相同层特征融合的思路,使得互联网输出直接是输入影像的预估mask,效率和精度得到大幅度提升。
FCN相同层特征融合示意图
技术创新点:全传递函数互联网(不含fc层);单位矩阵传递函数deconv(反传递函数);相同层特征图跳跃相连(相加)
1.2 编解码内部结构(Enconder-decoder)
SegNet和FCN互联网的思路基本一致。编码器部分使用VGG16的前13层传递函数,相同点在于Decoder部分Upsampling的形式。FCN透过将特征图deconv得到的结果与编码器对应大小的特征图相加得到上采样结果;而SegNet用Encoder部分maxpool的索引展开Decoder部分的上采样(原文描述:the decoder upsamples the lower resolution input feature maps. Specifically, the decoder uses pooling indices computed in the max-pooling step of the corresponding encoder to perform non-linear upsampling.)。技术创新点:Encoder-Decoder内部结构;Pooling indices。
SegNet互联网
SegNet与FCN的Upsample形式对比
U-Net互联网最初是特别针对生物药理学影像内部结构设计的,但由于其初四的性能,现如今UNet或其变体已经广泛应用应用领域到CV各个子应用领域。UNet互联网由U通道和短接通道(skip-connection)组成,U通道类似于SegNet的编解码内部结构,其中编码部分(contracting path)展开特征提取和捕获语句重要信息,解码部分(expanding path)用解码特征图来预估画素条码。短接通道提高了模型精度并化解了梯度消失难题,特别要注意的是短接通道特征图与上采用特征图是拼接而不是相加(相同于FCN)。技术创新点:U型内部结构;短接通道(skip-connection)
U-Net互联网
V-Net数据业务与U-Net类似,相同在于该构架增加了跳跃相连,并用3D操作物替换了2D操作以处理3D影像(volumetric image)。并且特别针对广泛使用的细分指标(如Dice)展开优化。V-Net互联网
技术创新点:相当于U-Net互联网的3D版本
FC-DenseNet (百层提拉米苏互联网)(paper title: The One Hundred Layers Tiramisu: Fully Convolutional DenseNets for Semantic Segmentation)该数据业务是由用密集相连块(Dense Block)和UNet构架组建的。该互联网最简单的版本是由向下过渡的两个下采样路径和向上过渡的两个上采样路径组成。且同样包含两个水平跳跃相连,将来自下采样路径的特征图与上采样路径中的相应特征图拼接在一起。上采样路径和下采样路径中的相连模式不完全同:下采样路径中,每个密集块外有一条跳跃拼接通路,从而导致特征图数量的线性增长,而在上采样路径中没有此操作。(多说一句,这个互联网的简称可以是Dense Unet,但是有一篇论文叫Fully Dense UNet for 2D Sparse Photoacoustic Tomography Artifact Removal, 是一个光声成像去伪影的论文,我看到过好多博客引用这篇论文里面的插图来谈语法分割,根本就不是一码事好么 =_=||,自己能分清即可。)FC-DenseNet(百层提拉米苏互联网)
技术创新点:融合DenseNet与U-Net互联网(从重要信息交流的视角看,密集相连确实要比残差内部结构更强大)
Deeplab系列互联网是在编解码内部结构的基础上提出的改进版本,2018年DeeplabV3+互联网在VOC2012和Cityscapes数据集上的表现优异,达到SOTA水平。DeepLab系列共有V1、V2、V3和V3+共四篇论文。简要归纳许多各篇论文的核心内容:1) DeepLabV1:融合传递函数脊髓互联网和概率图模型:CNN+CRF,提高了拆分定位精度;
2) DeepLabV2:ASPP(扩张空间金字塔池化);CNN+CRF
3) DeepLabV3:改进ASPP,多了1*1传递函数和自上而下平均池化(global avg pool);对比了级联和并联空洞传递函数的效果。
级联空洞传递函数
并联空洞传递函数(ASPP)
4) DeepLabV3+:加入编解码构架思想,添加一个解码器模块来扩展DeepLabv3;将广度可分离传递函数应用应用领域于ASPP和解码器模块;将改进的Xception作为Backbone。
DeepLabV3+
总的来说,DeepLab系列的核心贡献: 空洞传递函数;ASPP;CNN+CRF(仅V1和V2使用CRF,应该是V3和V3+透过广度互联网化解了拆分边界模糊的难题,效果要比加了CRF更好)
PSPNet(pyramid scene parsing network)透过对相同区域的语句重要信息展开聚合,提升了互联网借助自上而下语句重要信息的能力。在SPPNet,金字塔池化生成的相同层次的特征图最终被flatten并concate起来,再送入全相连层以展开进行分类,消除了CNN要求影像进行分类输入大小固定的限制。而在PSPNet中,使用的思路是:poolling-conv-upsample,接着拼接得到特征图,接着展开条码预估。PSPNet互联网
技术创新点:多尺度池化,更好地借助自上而下影像级别的先验知识来理解繁杂场景
RefineNet透过细化中间激活映射并分层地将其相连到结合多尺度激活,同时防止锐度损失。互联网由独立的Refine模块组成,每个Refine模块由三个主要就模块组成,即:剩余传递函数单元(RCU),多分辨率融合(MRF)和链剩余池(CRP)。总体内部结构有点类似U-Net,但在跳跃相连处内部结构设计了新的组合形式(不是简单的concat)。个人认为,此种内部结构其实非常适合作为自己互联网内部结构设计的思路,可以加入许多其他CV难题中使用的CNN module,所以以U-Net为总体框架,效果不会太差。RefineNet互联网
技术创新点:Refine模块
1.3 降低计算繁杂的数据业务
也有很多工作致力于降低语法拆分互联网的计算繁杂度。许多简化广度数据业务的方法:张量分解;通道/互联网剪枝;稀疏化相连。还有许多借助NAS(脊髓构架搜索)取代人工内部结构设计来搜索模块或整个互联网的内部结构,当然AutoDL所需的GPU资源会劝退一大批人。因此,也有许多人使用随机搜索来搜索小的多的ASPP模块,接着如前所述小模块来搭建整个互联网模型。
互联网轻量化内部结构设计是业内共识,移动端部署不可能每台机器配一张2080ti,另外耗电量、存储等难题也会限制模型的推广应用应用领域。不过5G如果能普及的话,数据就可以全数在云端处理,会很有意思。当然,短期内(十年),5G全方位部署不知道是否可行。
1.4 如前所述注意力机制的数据业务
注意力机制可以定义为:使用后续层/特征图重要信息来选择和定位输入特征图中最具判断力(或显著性)的部分。简单地可以认为是给特征图加权的一种形式(权值透过互联网计算得到),按照权值的作用形式的相同,可以分为通道注意力机制(CA)和空间注意力机制(PA)。FPA(Feature Pyramid Attention,特征金字塔注意力)互联网是一种如前所述注意力机制的语法拆分互联网,它将注意力机制和空间金字塔相结合,以提取用于画素级标记的精密特征,而没有采用膨胀传递函数和人为内部结构设计的解码器互联网。
1.5 如前所述对抗自学的数据业务
Goodfellow等人在2014年提出了一种对抗的方法来自学广度生成模型, 生成对抗互联网(GANs)中需要同时训练两个模型:捕获数据分布的生成模型G,和估计样本来自训练数据的概率的判别模型D。
G是一个生成式的互联网,它接收一个随机的噪声z(随机数),透过这个噪声生成影像。D是一个判别互联网,判别一张图片是不是“真实的”。它的输入参数是x(一张图片),输出D(x)代表x为真实图片的概率,如果为1,就代表100%是真实的图片,而输出为0,就代表不可能是真实的图片。G的训练程序是将D错误的概率最大化。可以证明在任意函数G和D的空间中,存在唯一的化解方案,使得G重现训练数据分布,而D=0.5。训练过程中,生成互联网G的目标就是尽量生成真实的图片去欺骗判别互联网D。而D的目标就是尽量辨别出G生成的假影像和真实的影像。这样,G和D构成了一个动态的“博弈过程”,最终的平衡点即纳什均衡点.。在G和D由脊髓互联网定义的情况下,整个系统可以用反向传播展开训练。
GANs数据业务示意
受到GANs启发,Luc等人训练了一个语法拆分互联网(G)和一个对抗互联网(D),对抗互联网区分来自ground truth或语法拆分互联网(G)的拆分图。G和D不断地博弈自学, 它们的损失函数定义为 :
GANs loss function
其中 和 分别代表拆分互联网(G)和对抗互联网(D)的参数。 和 分别是多类和二类交叉熵损失,两部分共同组成互联网的损失函数。
回顾一下原始的GAN损失函数:
GANs的损失函数体现的是一种零和博弈的思想,原始的GANs的损失函数如下:
损失的计算位置是在D(判别器)输出处,而D的输出通常是fake/true的判断,所以总体可以认为是上采用了二进行分类交叉熵函数。由GANs的损失函数的形式可知,训练要分为两部分:
具体来说是maxD部分,因为训练通常是先保持G(生成器)不变训练D的。D的训练目标是正确区分fake/true,如果我们以1/0代表true/fake,则对第一项E因为输入采样自真实数据所以我们期望D(x)趋近于1,也就是第一项更大。同理第二项E输入采样自G生成数据,所以我们期望D(G(z))趋近于0更好,也就是说第二项又是更大。所以是这一部分是期望训练使得总体更大了,也就是maxD的含义了。这部分只更新D的参数。
第二部分保持D不变(不展开参数更新),训练G,这个时候只有第二项E有用了,关键来了,因为我们要迷惑D,所以这时将label设置为1(我们知道是fake,所以才叫迷惑),希望D(G(z))输出接近于1更好,也就是这一项越小越好,这就是minG。当然判别器哪有这么好糊弄,所以这个时候判别器就会产生比较大的误差,误差会更新G,那么G就会变得更好了,这次没有骗过你,只能下次更努力了(引自https://www.cnblogs.com/walter-xh/p/10051634.html)。这时候只更新G的参数。
从另一个视角看GANs,判别器(D)相当于一种特殊的损失函数(由脊髓经互联网构成,相同于传统的L1、L2、交叉熵等损失函数)。
另外GANs训练形式特殊,存在梯度消失、模式崩溃等难题(目前好像有办法可以化解),但其内部结构设计思想确实是广度自学时代一个伟大的发明。
1.6 小结
如前所述广度自学的影像语法拆分模型大多遵循编码器-解码器体系内部结构,如U-Net。近几年的研究成果表明,膨胀传递函数和特征金字塔池可以改善U-Net风格的互联网性能。在第2节中,我们归纳一下,如何将那些方法或其变体应用应用领域于药理学影像拆分。
2. 数据业务技术创新在药理学影像拆分中的应用应用领域
这部分如是说许多数据业务技术创新在2D/3D药理学影像拆分中的应用应用领域研究成果。
2.1 如前所述模型压缩的拆分方法
为了实现实时处理高分辨率的2D/3D医学影像(例如CT、MRI和组织病理学影像等),研究人员提出了多种压缩模型的方法。weng等人借助NAS技术应用应用领域于U-Net互联网,得到了在CT,MRI和超声影像上具有更好的器官/肿瘤拆分性能的小型互联网。Brugger透过借助组归一化(group normalization )和Leaky-ReLU(leaky ReLU function),重新内部结构设计了U-Net构架,以使互联网对3D药理学影像拆分的存储效率更高。也有人内部结构设计了参数量更少的扩张传递函数module。其他许多模型压缩的方法还有权重量化(十六位、八位、二值量化)、蒸馏、剪枝等等。
2.2 编码-解码内部结构的拆分方法
Drozdal提出了一种在将影像送入拆分互联网之前应用应用领域简单的CNN来对原始输入影像展开归一化的方法,提高了单子显微镜影像拆分、肝脏CT、前列腺MRI的拆分精度。Gu提出了在主干互联网借助扩张传递函数来保留语句重要信息的方法。Vorontsov提出了一种图到图的互联网框架,将具有ROI的影像转换为没有ROI的影像(例如存在肿瘤的影像转换为没有肿瘤的健康影像),接着将模型去除的肿瘤添加到新的健康影像中,从而获得对象的详细内部结构。Zhou等人提出了一种对U-Net互联网的跳跃相连重新布线的方法,并在胸部低剂量CT扫描中的结节拆分,显微镜影像中的核拆分,腹部CT扫描中的肝脏拆分和结肠镜检查视频中的息肉拆分任务中测试了性能。Goyal将DeepLabV3应用应用领域到皮肤镜彩色影像拆分中,以提取皮肤病变区域。
2.3 如前所述注意力机制的拆分方法
Nie提出了一种注意力模型,相比于baseline模型(V-Net和FCN),可以更准确地拆分前列腺。SinHa提出了一种如前所述多层注意力机制的互联网,用于MRI影像腹部器官拆分。Qin等人提出了一个扩张传递函数模块,以保留3D药理学影像的更多细节。其他如前所述注意力机制的啼血影像拆分论文还有很多。
2.4 如前所述对抗自学的拆分互联网
Khosravan提出了从CT扫描中展开胰腺拆分的对抗训练互联网。Son用生成对抗互联网展开视网膜影像拆分。Xue使用全传递函数互联网作为生成对抗框架中的拆分互联网,实现了从MRI影像拆分脑肿瘤。还有其他许多成功应用GANs到药理学影像拆分难题的论文,不再一一列举。
2.5 如前所述RNN的拆分模型
递归脊髓互联网(RNN)主要就用于处理序列数据,长短期记忆互联网(LSTM)是RNN的一个改进版本,LSTM透过引入自环(self-loops)使得梯度流能长期保持。在药理学影像分析应用领域,RNN用于对影像序列中的时间依赖性展开建模。Bin等人提出了一种将全传递函数脊髓互联网与RNN融合的影像序列拆分算法,将时间维度上的重要信息纳入了拆分任务。Gao等人借助CNN和LSTM拉对脑MRI切片序列中的时间关系展开建模,以提高4D影像中的拆分性能。Li等人先用U-Net获得初始拆分概率图,后用LSTM从3D CT影像中展开胰腺拆分,改善了拆分性能。其他借助RNN展开药理学影像拆分的论文还有很多,不再一一如是说。
2.6 小结
这部分内容主要就是拆分算法在药理学影像拆分中的应用应用领域,所以技术创新点并不多,主要就还是对相同格式(CT还是RGB,画素范围,影像分辨率等等)的数据和相同部位数据的特点(噪声、对象形态等等),经典之作互联网需要特别针对相同数据展开改进,以适应输入数据格式和特征,这样能更好的完成拆分任务。虽然说广度自学是个黑盒,但总体上模型的内部结构设计还是有章可循的,什么思路化解什么难题、造成什么难题,可以根据具体拆分难题展开取舍,以达到最优的拆分性能。
部分参考文献:
1 Deep Semantic Segmentation of Natural and Medical Images: A Review
2 NAS-Unet: Neural architecture search for medical image segmentation. IEEE Access, 7:44247–44257, 2019.
3 Boosting segmentation with weak supervision from image-to-image translation. arXiv preprint arXiv:1904.01636, 2019
4 Multi-scale guided attention for medical image segmentation. arXiv preprint arXiv:1906.02849,2019.
5 SegAN: Adversarial network with multi-scale L1 loss for medical image segmentation.
6 Fully convolutional structured LSTM networks for joint 4D medical image segmentation. In 2018 IEEE
7 https://www.cnblogs.com/walter-xh/p/10051634.html