计算机视觉中图像分割的经典算法

2023-05-31 0 224

影像拆分的难题表述,和在前述情景中的应用领域实例

全传递函数互联网微分形式上取样特点圆顶Mask-RCNN

责任编辑分成四个部份,第三部份是现代听觉的图拆分演算法,尽管那时极少用,但演算法较为迷人。第三部份是广度自学演算法,会如是说前段时间一两年盛行的经典之作基本功。

甚么是影像拆分?

影像拆分是预估影像中每四个画素辖下的类型或是球体。影像拆分有四个子难题,四个是只预估类型微观的拆分,对每一画素标示出四个边线。第四个是界定相同球体的子代。

计算机视觉中图像分割的经典算法

应用领域情景,比如说自动驾驶,3D 世界地图复建,亮化相片,人脸识别可视化之类。

最常见的统计数据集

主要就如是说四个:Pascal VOC;CityScapes;MSCOCO。

第四个是 Pascal VOC 统计数据集

计算机视觉中图像分割的经典算法

这是四个比较新贵的统计数据集,它提供更多 20 个类型,主要就包括,人,车等。有 6929 张标示相片,提供更多了类型微观的标示和子代微观的标示,换句话说既能做语法拆分,只界定呢车;也能做子代拆分,界定有几辆,把相同的车记号出。

第四个是CityScapes统计数据集

计算机视觉中图像分割的经典算法

主要就面向道路驾驶情景,它有 30 个精细的类型。其中有 5000 张相片进行了精细标示,精确到画素级别。还有 20000 张相片有粗糙的标示。它也能提供更多语法微观拆分和子代微观拆分。

第四个是MS COCO统计数据集

计算机视觉中图像分割的经典算法

这是目前为止有语法拆分的最大统计数据集,提供更多的类型有 80 类,有超过 33 万张相片,其中 20 万张有标示,整个统计数据集中子代的数目超过 150 万个,最新的一些论文都会在 MSCOCO 统计数据集上做实验,因为它的难度最大,挑战新最高。

现代的图切割

图切割是移除一些边,使得四个子图不相连;图切割的目标是,找到四个切割,使得移除边的和权重最小。

计算机视觉中图像分割的经典算法

图切割的优点和缺点

优点是拆分效果还不错,并且是一种普适性的框架 ,适合各种特点。缺点是时间复杂度和空间复杂度较高,需要事先选取拆分块儿的数目。

图切割的失败案列

计算机视觉中图像分割的经典算法

为了克服这个失败,有论文提出了 Normalized Cut。它是在图拆分中加入权重参数 Volume。Volume(A) 是 A 中所有边的权重之和。这种方法平衡了每四个子图的大小。

计算机视觉中图像分割的经典算法

广度自学演算法

第三篇较为成功用神经互联网做影像拆分的论文是 Fully Convolutional Networks (以下简称为 FCN)。

现代神经互联网做分类的步骤是,首先是四个影像进来之后经过多层传递函数得到降维之后的特点图,这个特点图经过全连接层变成四个分类器,最后输出四个类型的向量,这是分类的结果。

而 FCN 是把所有的全连接层换成卷基层,原来只能输出四个类型分类的互联网能在特点图的每四个画素输出四个分类结果。这样就把分类的向量,变成了四个分类的特点图。

计算机视觉中图像分割的经典算法

为了能让分类的特点图恢复到原图的大小,采用了上取样层。具体细节可观看视频回放。

FCN的结构图

计算机视觉中图像分割的经典算法

下面如是说一下怎么进行相片放大操作的。

这里有四个概念,第四个概念叫反传递函数层(Deconvolution);第四个概念叫微分形式差值上取样(Bilinear Upsampling)。

这里的「反传递函数」其实不是真正的传递函数的逆运算,用 Transposed Convolution 代替较为合适,但原论文中用的是 Deconvolution,我们下面还是用这个词,它能等效于普通传递函数。它的主要就目的是实现上取样。

计算机视觉中图像分割的经典算法

反传递函数具体是怎么计算的,详细过程可到AI慕课学院免费观看视频回放。

下面讲一下Padding和Stride。

Padding和Stride前述指的是普通传递函数,而不是反传递函数等效的普通传递函数。

计算机视觉中图像分割的经典算法

微分形式上取样差

计算机视觉中图像分割的经典算法

微分形式上取样差值的四个用途:用作初始化反传递函数的权重;不用反传递函数,使用上传递函数+传递函数;只使用上取样。

下面如是说膨胀传递函数或带洞传递函数(Dilated Convolution )。

它的用途能使特点图视野变大,但不增加计算量,对于影像拆分的好处,更利于提取全局信息,这样就使得拆分准确率增加很多。

计算机视觉中图像分割的经典算法

特点圆顶(Feature Pyramid)

有以下几种特点圆顶

计算机视觉中图像分割的经典算法

特点圆顶互联网

计算机视觉中图像分割的经典算法

Pyramid Pooling

计算机视觉中图像分割的经典算法

前面的是在相同的尺度上提取特点,而这个是把特点提取之后pooling到相同的大小。

Mask-RCNN的特点

计算机视觉中图像分割的经典算法

第四个特点它是多分支输出的。它同时输出球体的类型,bounding box和Mask。

第四个特点是它使用了Binary Mask。之前神经互联网都是使用多类Mask,而它只需要判断球体在哪个地方。

最后是RoiAlign层。能较为精确地把球体的边线对应到特点图的边线上。

具体讲解细节请观看免费的直播回放视频。

Rol Pooling 与Roi Align的较为

计算机视觉中图像分割的经典算法
计算机视觉中图像分割的经典算法

雷锋网AI 慕课学院提供更多本次直播回放视频,点击链接直达:

http://www.mooc.ai/course/414/learn#lesson/2266。

关键词:计算机系统听觉、影像拆分、广度自学演算法、传递函数、反传递函数、上取样、下取样

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务