[SemanticSoftSegmentation:语义软分割]-2018最强图像分割光谱消光算法调研与测试

在这里插入图片描述
SSS据说是迄今为止效果最好的图像分割算法,效果超过Mask-RCNN,我们来研究一下下。
项目测试结果在最后
Github项目:https://github.com/yaksoy/SemanticSoftSegmentation

算法主要处理步骤:

  • 特征降维,从128维特征降到3维。
  • 超像素处理,用于计算Superpixels。
  • 计算仿射变换和 Laplacian,包括:Matting Affinity,semantic affinity 和 non-local
    color affinity 以及 affinityMatrixToLaplacian.
  • 计算 Laplacian 的特征分解,得到 100 个特征向量(eigenvectors).
  • 初始化优化,主要计算初始化 soft segments,对特征进行语义初始化;关于深度网络提取的特征进行 Group segments.
  • 最终优化Final optimization,sparsification.

简介

我们提出了“光谱消光”:一种自然图像消光的新方法,它可以从适当定义的拉普拉斯矩阵的最小特征向量自动计算一组基本模糊消光分量。因此,我们的方法扩展了光谱分割技术,其目标是提取硬片段,提取软垫片组件。然后可以将这些组件用作构建块,以便以无人监督的方式或基于少量用户输入容易地构造具有语义意义的前景遮罩(Mask)。
在这里插入图片描述
在这里插入图片描述
选择和合成是图像编辑过程的核心。例如,局部调整通常从选择开始,并且组合来自不同图像的元素是产生新内容的有效方式。但是,创建准确的选择是一项繁琐的工作,尤其是涉及模糊边界和透明度时,磁性套索和魔杖等工具可以帮助用户,但他们只利用低级别的线索,并严重依赖用户的技能和图像内容的解释来产生良好的效果。此外,他们只生成二元选择,需要进一步细化以考虑软边界,如毛茸茸的狗的轮廓。还有用于帮助用户完成此任务的消光工具,但它们只会增加整个编辑过程的乏味。如果图像满足若干标准,则通过提供中间图像表示,可以加快编辑过程的速度。首先,这种分割应该提供图像的不同部分,同时还准确地表示它们之间的软转换。为了允许目标编辑,每个片段应限于图像中语义上有意义的区域的范围,例如,它不应跨越两个对象之间的边界延伸。最后,分割应该完全自动完成,不添加交互点或需要艺术家的专业知识。用于语义分割,图像消光或软颜色分割的先前方法不能满足这些特性中的至少一个。在本文中,我们引入了语义软分割,将输入图像全自动分解为一组覆盖场景对象的层,由软转换分隔。我们从谱分解角度处理语义软分割问题。我们将来自输入图像的纹理和颜色信息与我们使用经过场景分析训练的卷积神经网络生成的高级语义线索相结合。我们设计了一个图形结构,在相应的拉普拉斯矩阵的特征向量中揭示语义对象以及它们之间的软转换。我们引入了一个空间变化的层稀疏模型,它可以从特征向量生成高质量的图层,可用于图像编辑。我们证明我们的算法成功地将图像分解为少量的图层,紧凑而准确地表示场景对象,如图1所示。我们后来表明我们的算法可以成功处理对其他技术具有挑战性的图像,并提供编辑示例从我们的图层表示中受益的本地颜色调整或背景替换等操作。

软分割

软分割将图像分解成两个或更多个片段,其中每个像素可以部分地属于多于一个片段。层内容根据相应方法的具体目标而改变。例如,软色分割方法使用全局优化提取均匀颜色的软层[Singaraju和Vidal 2011;泰等人。 2007; Tan等人。 2016]或每像素颜色分解[Aksoy et al。 2016,2017b]。虽然软色段被示出对于诸如图像重新着色的若干图像编辑应用是有用的,但是它们的内容通常不尊重对象边界,不允许有针对性的编辑。为了生成空间连通的软段,Singaraju和Vidal [2011]从一组用户定义的区域开始,多次解决两层软分割问题,生成多个层。莱文等人。另一方面,[2008b]提出频谱消光,通过频谱分解自动估计一组空间连接的软段。 Singaraju和Vidal [2011]以及Levin等人。 [2008b]围绕消光拉普拉斯算子构造他们的算法[Levin et al。 2008a],它为图像中的局部软转换提供了强大的表示。我们还利用了消光拉普拉斯和谱分解,遵循光谱消光的想法。然而,与以前的工作不同,我们构建了一个图表,该图表将来自深度网络的高级信息与本地纹理信息融合,以便生成对应于图像中具有语义意义的区域的软片段。
自然图像消光。自然图像消光是用户定义的前景区域的每像素不透明度的估计。自然消光算法的典型输入是trimap,它定义了不透明前景,透明背景和未知空间区域。虽然这个问题有不同的方法,所有这些方法都利用了定义的前景和背景区域的颜色特征,但我们最密切相关的方法被归类为基于亲和力的方法。基于亲和力的方法,如封闭式消光[Levin et al。 2008a],KNN matting [Chen et al。 2013]和信息流消息[Aksoy et al。 2017a],定义像素间亲和度以构建反映图像中不透明度过渡的图形。与自然图像消光方法相反,我们依赖于自动生成的语义特征来定义我们的软段而不是trimap,并生成多个软段而不是前景分割。虽然它们看似相似,但自然消光和软分割具有根本差异。以trimap作为输入的自然消光成为前景和背景颜色建模的问题,可能是通过选择颜色样本或传播颜色信息。同时,软分段侧重于检测最适合目标应用的软转换,在我们的例子中是对应于语义边界的软转换。
有针对性的编辑传播。一些图像编辑方法依赖于用户定义的图像稀疏编辑并将它们传播到整个图像。 ScribbleBoost [Li et al。 2008]提出了一个管道,他们对用户涂鸦指定的对象进行分类,以允许编辑图像中的特定对象类,以及DeepProp [Endo et al。 2016]利用深度网络传播依赖于类的颜色编辑。艾纳德等人。 [2014]构造一个图,并与我们的方法平行,分析相应的拉普拉斯矩阵的特征分解,以创建相干的重新着色结果。 An和Pellacini [2008]和Chen等人。 [2012]还定义了像素间的亲和度,并利用拉普拉斯矩阵的性质来求解用户定义的编辑的合理传播。虽然我们的结果也可以用于目标编辑,而不是使用先验定义的编辑,我们直接将图像分解为软片段,让艺术家将它们用作各种场景中的中间图像表示并使用外部图像编辑工具。
语义分割。 随着深度神经网络的引入,语义分割得到了显着改善。 虽然关于语义分割的详细报告超出了我们的范围,但语义分割的最新技术包括Zhao等人的场景解析工作。 [2017],He等人的实例分割方法。 [2017]和Fathi等人。 [2017],Bertasius等人的工作。 [2016]通过颜色边界线索增强语义分割。 我们还使用深度网络来表示语义特征,但是我们的软分割方法是类不可知的,即我们对关于语义边界的图像的准确分割感兴趣,但是我们不打算对所选择的分类或检测进行分类。 一组课程。 其他人也利用类不可知的语义信息来提高视频去模糊的性能[Ren et al。 2017]或电影世代[Oh et al。2017年]。

方法

我们寻求自动生成输入图像的软分割,即分解为表示场景中对象的层,包括透明度和存在时的软转换。 每层的每个像素用不透明度值α∈[0,1]增强,其中α= 0表示完全透明,α= 1表示完全不透明,并且中间值表示部分不透明度。 正如该领域的其他研究,如[Aksoy等。2017b; Singaraju和Vidal 2011],我们使用附加图像形成模型:
在这里插入图片描述
即,我们将输入RGB像素表示为每个层i中的像素之和,其由相应的α值加权。 我们还约束α值在每个像素处总和为1,表示完全不透明的输入图像。
我们的方法使用与谱匹配相同的形式来制定软分割任务作为特征向量估计问题[Levin et al。2008B。 该方法的核心部分是拉普拉斯矩阵L的创建,其表示图像中的每对像素属于同一片段的可能性。 虽然光谱遮罩仅使用低级局部颜色分布来构建此矩阵,但我们描述了如何使用非局部线索和高级语义信息来增强此方法。 原始方法还描述了如何使用稀疏化从L的特征向量创建层。 我们展示了这种原创技术的轻松版本如何实际产生更好的结果。 图2显示了我们方法的概述。

背景

光谱消光算法

我们的方法建立在Levin等人的工作基础之上[2008A; 2008B]。 他们首先介绍了使用局部颜色分布来定义矩阵L的消光拉普拉斯算子,该矩阵L捕获局部贴片中每对像素之间的亲和度,通常为5×5像素。使用该矩阵,它们最小化受用户提供的约束的二次函数αTLα,其中α表示由层的所有α值构成的矢量。该公式表明,与L的小特征值相关联的特征向量在创建高质量遮罩中起着重要作用。受此观察的启发,他们随后在光谱消光方面的工作使用L的特征向量来构建软分割[Levin et al。 2008B。每个软段是K个特征向量的线性组合,其对应于最小化消光稀疏度的L的最小特征值,即,最小化部分不透明度的发生。通过最小化有利于α= 0和α= 1的能量函数来创建分段:
在这里插入图片描述
其中αip是第i个段的第p个像素的α值,E是包含具有最小特征值的L的K个特征向量的矩阵,yi是定义软段的特征向量上的线性权重,并且γ<1是参数 先控制稀疏度的强度。
当图像包含具有不同颜色的单个识别良好的对象时,光谱消光产生令人满意的结果,但它与更复杂的对象和场景斗争。 仅基于仅考虑小补丁的低级统计的消光拉普拉斯算子,其识别对象的能力有限。 在我们的工作中,我们扩展了这种方法,以融合相同拉普拉斯公式中的语义特征,捕获更高级别的概念,如场景对象,并获得更广泛的图像数据视图。
在这里插入图片描述
亲和力和拉普拉斯矩阵。 莱文等人。 [2008a]将他们的方法表示为最小二乘优化问题,直接导致拉普拉斯矩阵。 另一种方法是表达像素对之间的亲和力[Aksoy et al。2017A。 具有正亲和力的对更可能具有相似的值,零亲和力对是独立的,并且具有负亲和力的对可能具有不同的值。 在这项工作中,我们将使用亲和方法并使用众所周知的公式构建相应的归一化拉普拉斯矩阵:
在这里插入图片描述

其中W是包含所有像素对之间的亲和度的方阵,D是对应的度矩阵,即具有元素W 1, 1的对角矩阵是1个行向量。 正如Levin等人所指出的,由于存在负面的亲和力,L可能并不总是真正的拉普拉斯图,但仍然具有相似的性质,例如是半正半球。

非局部颜色亲和力

我们定义了一个额外的低级别关联项,表示基于颜色的长程交互。 一种天真的方法是在消光拉普拉斯算子的定义中使用更大的补丁。 但是,这个选项很快变得不切实际,因为它使拉普拉斯矩阵更密集。 另一种选择是从非局部邻域中采样像素以插入连接,同时保留矩阵中的一些稀疏性。 KNN消光[陈等人。 2013]和信息流消息[Aksoy等。 2017a]已经显示出与这种采样的中程相互作用的良好结果。 然而,这种策略在稀疏性和鲁棒性之间进行权衡:较少的样本可能会错过重要的图像特征,而更多的样本会使计算更容易处理。
在这里插入图片描述

添加稀疏颜色连接可提供更清晰的前景表示。
我们提出了一种基于图像分割的引导式采样。 我们使用SLIC生成2500个超像素[Achanta et al。 2012]并且估计每个超像素与半径内的所有超像素之间的亲和度,该半径对应于图像尺寸的20%。 这种方法的优点在于,每个特征都足够大以成为超像素,稀疏性仍然很高,因为我们每个超像素使用一个样本,并且它通过使用大半径连接可能断开的区域,例如, 当通过物体上的洞看到背景时。 形式上,我们定义两个超像素s和t的质心之间的颜色亲和度wC s,t,其间距小于图像尺寸的20%,如下所示:

其中cs和ct是位于[0,1]的s和t的超像素的平均颜色,erf是高斯误差函数,ac和bc是控制亲和力降低的速度和阈值变为零的参数。 erf取[-1,1]中的值,这里使用的主要是它的S形形状。 我们在所有结果中使用ac = 50和bc = 0.05。 这种亲和力基本上确保具有非常相似颜色的区域在具有挑战性的场景结构中保持连接,并且其效果在图3中示出。

高级语义亲和力

虽然非局部颜色亲和力为分割过程增加了长程交互,但它仍然是一个低级别的特征。我们的实验表明,在没有附加信息的情况下,分割仍然经常合并属于不同对象的相似颜色的图像区域。为了创建局限于语义相似区域的片段,我们添加了一个语义关联项,即一个鼓励对属于同一场景对象的像素进行分组并阻止来自不同对象的像素的术语。我们在对象识别领域的先前工作的基础上,在每个像素上计算与底层对象相关的特征向量。我们通过神经网络计算特征向量,如第3.5节所述。生成特征向量,使得对于属于同一对象fp和fq的两个像素p和q是相似的,即∥fp-fq∥≡0,并且对于不同语义区域中的第三像素r,fr远离,即∥fp - fq∥«∥fp - fr∥。

。。。
与颜色亲和力不同,语义亲和力仅涉及附近的超像素以支持创建连接的对象。 这种非局部颜色亲和力与局部语义亲和度的选择允许创建可以覆盖相同语义相干区域的空间断开区域的层。 这通常适用于通常出现在背景中的绿色和天空等元素,这使得它们可能由于遮挡而分裂为多个断开连接的组件。 由于包含局部语义亲和性,L的特征向量揭示了对象边界,如图4和图5所示。

创建图层

我们通过使用本节前面描述的亲和力来创建层,以形成拉普拉斯矩阵L.我们从该矩阵中提取特征向量,并使用两步稀疏化过程从这些特征向量创建层。
形成拉普拉斯矩阵。 我们通过将亲和度矩阵加在一起并使用公式3形成拉普拉斯矩阵L:
在这里插入图片描述
其中WL是包含消光亲和力的矩阵,WC是包含非局部颜色亲和力的矩阵(第3.2节),WS是具有语义亲和力的矩阵(第3.3节),以及控制每个术语影响的σS和σC参数,两者都设置为 是0.01。

受约束的稀疏化。我们提取对应于L的100个最小特征值的特征向量。我们使用Levin等人的优化过程形成一组中间层。 [2008b]关于Eq。 2,γ= 0.8。与在特征向量上使用k均值聚类来初始化优化的光谱消光不同,我们对由其特征向量f表示的像素使用k均值聚类。这个初始猜测与场景语义更加一致,并产生更好的软分割。我们用这种方法生成了40层,实际上,它们中的一些都是零,留下15到25个非平凡层。我们通过在由它们的平均特征向量表示的这些非平凡层上运行k = 5的k均值算法来进一步减少层数。这种方法比尝试将100个特征向量直接稀疏化为5层更好,因为这种急剧减少会使问题过度约束并且不能产生足够好的结果,特别是在哑光稀疏度方面。分组前后的初始估计软段如图7所示。我们将段数设置为5而不失一般化;虽然这个数字可以由用户根据场景结构设置,但我们观察到它对于大多数图像来说是合理的数字。因为这5个层被约束在有限数量的特征向量的子空间内,所以实现的稀疏性是次优的,在层中留下许多半透明区域,这在普通场景中是不可能的。接下来,我们介绍了稀疏程序的宽松版本来解决此问题。

实施细节

我们使用MATLAB中可用的稀疏特征分解和直接求解器来实现我们算法的约束稀疏化阶段的概念验证实现。 对于640×480图像,此步骤大约需要3分钟。 松弛的稀疏化步骤使用MATLAB的预处理共轭梯度优化实现。 每次迭代通常在50到80次迭代中收敛,并且该过程大约需要30秒。 我们算法的运行时间随着像素数的增加而线性增长。

实验分析

在语义分割,自然图像消光和软分割的交叉处的语义软分割对于数值评估具有挑战性。语义分割数据集提供的二进制标记并不总是像素精确,这使得它们不适合用于对语义软分割进行基准测试。自然图像消光方法通常在专用基准上进行评估[Rhemann等人。 2009]和数据集[Xu et al.2017]。这些基准旨在评估利用辅助输入的方法,称为trimap,定义预期的前景和背景,以及不确定的区域。此外,我们工作的语义方面超出了这些基准的范围。另一方面,软色分割是一个缺乏基本事实的可靠定义的问题。虽然Aksoy等人。 [2017b]提出了几个用于评估的盲目指标,它们专门用于软分色,也忽略了语义方面。因此,我们采用与相关方法的定性比较,并讨论各种方法之间的特征差异。

光谱消光和语义分割

在图9和图10中,我们将结果与光谱消光结果一起显示[Levin et al。 2008b]作为我们最相关的软分割方法,以及两种最先进的语义分割方法:赵等人的场景解析方法。 [2017](PSPNet)和He等人的实例分割方法。 [2017](Mask R-CNN)。补充材料中提供了更多这些比较。光谱消光每个图像生成大约20个软片段,并通过组合软片段以最大化对象分数来提供多个可选的前景遮罩。这些遮罩不是明确的结果,而是作为选项提供给用户,并且显示所有20个分段将使得比较更难以评估。相反,我们应用我们的软段分组方法,该方法将语义特征用于光谱消光的结果。所呈现的示例表明,语义分割方法虽然成功地识别和定位图像中的对象,但是在对象的边缘周围具有低精度。虽然它们的准确性对于语义分割的任务是令人满意的,但是对象边缘的错误对于图像编辑或合成应用是有问题的。在光谱的另一端,光谱消光能够成功捕获物体周围的大部分软转换。然而,由于缺乏语义信息,它们的片段通常同时覆盖多个对象,并且对于任何给定对象,alpha值通常不稀疏。相比之下,我们的方法捕获对象的整体或子对象而不对不相关的对象进行分组,并在边缘处实现高精度,包括适当时的软转换。
在这里插入图片描述

应该注意的是,我们的方法在多个段中表示相同的对象并不罕见,例如图9(2)中的马车或图9(4)中的背景栏。这主要是由于预设的层数,五,有时超过图像中有意义的区域的数量。尽管被语义特征检测到,但是在最终片段中可能遗漏一些小物体,例如图10(5)中的背景中的人。这是因为,特别是当物体的颜色与周围环境相似时,物体在特征向量中看起来没有明确定义,并且它们最终被合并为近似段。我们的语义特征不是实例感知的,即同一类的两个不同对象的特征是相似的。这导致多个对象在同一层中表示,例如图9(1)中的奶牛,图9(5)中的人或图10(3)中的长颈鹿。但是,使用实例感知功能,我们的方法将能够为不同的对象实例生成单独的软段。
在这里插入图片描述

从输入图像(a)和我们的特征向量(b),我们的方法生成(c)中所示的遮罩。 我们展示了具有不同未知区域宽度的三维图,由PSPNet使用语义段生成[Zhao et al。 2017](d)或Mask R-CNN未能可靠地提供前景和背景区域,这会影响使用信息流消息产生的消光效果[Aksoy et al。 2017a]负面。 在底部示例中,通过选择单个类(左)或与该对象对应的所有类来生成PSPNet三维图。 我们还使用由结果(f)生成的trimap提供matting结果,该trimap在给定精确trimap的情况下演示了matting算法的性能。 来自[Lin et al。2014。
对于软分割和图像消光方法而言,灰度图像尤其具有挑战性,缺少这些方法通常依赖的颜色提示。 另一方面,语义分割方法的性能在处理灰度图像时不会显着降低。 图10(5)表明我们的方法可以成功地利用语义信息进行灰度图像的软分割。
所呈现的示例表明,语义分割方法虽然成功地识别和定位图像中的对象,但是在对象的边缘周围具有低精度。 虽然它们的准确性对于语义分割的任务是令人满意的,但是对象边缘的错误对于图像编辑或合成应用是有问题的。 在光谱的另一端,光谱消光能够成功捕获物体周围的大部分软转换。 然而,由于缺乏语义信息,它们的片段通常同时覆盖多个对象,并且对于任何给定对象,alpha值通常不稀疏。 相比之下,我们的方法捕获对象的整体或子对象而不对不相关的对象进行分组,并在边缘处实现高精度,包括适当时的软转换。

应该注意的是,我们的方法在多个段中表示相同的对象并不罕见,例如图9(2)中的马车或图9(4)中的背景栏。这主要是由于预设的层数有时超过图像中有意义的区域的数量。尽管被语义特征检测到,但是在最终片段中可能遗漏一些小物体,例如图10(5)中的背景中的人。特别是因为,**当物体的颜色与周围环境相似时,物体在特征向量中看起来没有明确定义,并且它们最终被合并为近似段。我们的语义特征不是实例感知的,即同一类的两个不同对象的特征是相似的。这导致多个对象在同一层中表示,**例如图9(1)中的奶牛,图9(5)中的人或图10(3)中的长颈鹿。但是,使用实例感知功能,我们的方法将能够为不同的对象实例生成单独的软段。
在这里插入图片描述
在底部示例中,通过选择单个类(左)或与该对象对应的所有类来生成PSPNet三维图。 我们还使用由结果(f)生成的trimap提供matting结果,该trimap在给定精确trimap的情况下演示了matting算法的性能。 来自[Lin et al。2014。
对于软分割和图像消光方法而言,灰度图像尤其具有挑战性,缺少这些方法通常依赖的颜色提示。 另一方面,语义分割方法的性能在处理灰度图像时不会显着降低。 图10(5)表明我们的方法可以成功地利用语义信息进行灰度图像的软分割。

自然图像消光

原则上,语义软段可以通过级联语义分割和自然图像匹配来生成。定义前景,背景和软过渡区域的trimap可以从语义硬片段生成,以馈送到自然消光方法。秦等人[2017]对类特定问题使用类似的方法。我们在图11中展示了这种情景的两个例子,通过使用Mask R-CNN和PSPNet结果生成三维图并使用最先进的消光方法估计遮罩来证明这种方法的缺点,信息流消息[Aksoy 2017A]由自然图像消光方法做出的强烈假设是所提供的三元图是正确的,即,定义的前景和背景区域被用作硬约束以指导方法来对层颜色进行建模。然而,估计的语义边界中的不准确性通常无法提供可靠的三维图,即使具有大的未知区域宽度。如图中突出显示的,这导致消光结果中的严重伪影。我们展示了使用我们的演示结果生成的准确trimap,自然消光方法成功。
我们的软段和前景对象的相应遮罩。 请注意,通常为自然消光提供的三维图不会用于产生这些结果,[Xu et al.2017]。
在这里插入图片描述

软色分割

软色分割,最初由Tai等人提出的概念 [2007],将输入图像分解为均匀颜色的软层,并且已被证明对图像编辑和重新着色应用有用。 作为语义软段和软色段之间的概念比较,图13显示了基于非混合的软颜色分段的段[Aksoy.2017]。为了更方便的定性比较,我们使用闭合颜色估计方法估算了软段的层颜色[Levin et al。2008]
在这里插入图片描述
可以立即看到柔和色段的内容超出对象边界,而我们的结果显示同一段中具有语义意义的对象,无论其颜色内容如何。 由于这些表示彼此正交,因此可以在编排中使用它们来生成目标重新着色结果。
在这里插入图片描述
图14.我们展示了软分割结果以及使用每层操作或简单组合生成的图像编辑结果,以演示在目标图像编辑任务中使用我们的分割。

使用语义软段进行图像编辑

我们在图14中展示了用于目标图像编辑和合成的软段的几个用例。图14(1,3,4,7)显示了合成结果,其中我们使用闭合层颜色估计估算了段的层颜色[ 莱文等人2008A]。注意所选前景层和新背景之间的自然柔和过渡。 软段也可用于目标图像编辑,其中它们用于定义特定调整图层的蒙版,例如在(2)中向列车添加运动模糊,在(5,6)中分别对人和背景进行颜色分级和 (8)中的热气球,天空,地形和人的风格分开。 虽然这些编辑可以通过用户绘制的蒙版或自然消光算法完成,但我们的表示提供了方便的中间图像表示,使艺术家可以毫不费力地进行目标编辑。

限制和未来的工作

虽然我们能够生成精确的图像软分割,但在我们的原型实现中,我们的求解器并未针对速度进行优化。 因此,我们640×480图像的运行时间在3到4分钟之间 我们的方法的效率可以通过多种方式进行优化,例如多尺度求解器,但线性求解器和特征分解的有效实现超出了本文的范围。
在约束稀疏化步骤中,我们生成大约15-25个分段,然后使用特征向量将其分组为5.通过经验观察设置层数,并且在一些情况下,可以将对象分成若干层。 虽然这不会影响我们方法的适用性,因为在编辑中组合这些层是微不足道的,可以设计出更复杂的分组方法,例如通过识别和分类。
我们的方法不会为同一类对象的不同实例生成单独的图层。 这是由于我们的特征向量,它不提供实例感知语义信息。 然而,我们的软分割公式对语义特征是不可知的。 因此,更高级的特征生成器可以在与更合适的分段分组策略相结合时生成实例级软分段结果。
我们已经从自然消光数据集中显示了几个结果。 但是,应该指出的是,我们的目的并不是解决一般的自然消光问题。 自然消光是一个成熟的领域,有许多特定的挑战,例如在非常相似颜色的前景和背景区域周围生成精确的遮罩,最先进的方法取决于两个区域的颜色分布,以提高这些区域周围的性能。 如图15所示,当对象颜色非常相似时,我们的方法可能在初始约束稀疏化步骤中失败,或者由于围绕大过渡区域的不可靠的语义特征向量,软段的分组可能失败。
在这里插入图片描述
图15.显示了两种故障情况。 顶部示例:如果大区域覆盖具有非常相似颜色的不同对象(a)我们的特征向量(b)和分组前的分段(c)无法识别图像中的单独对象并导致不准确的分割(d)。 下面的示例:当我们的特征向量无法表示对象时,即使初始层能够生成准确的软转换(c),软段(d)的分组也可能失败。 来自[Rhemann等人的图片。2009年]。

结论

我们已经提出了一种方法,通过将来自神经网络的高级信息与完全自动的低级图像特征融合,生成对应于图像中的语义上有意义的区域的软片段。 我们已经表明,通过仔细定义图像中不同区域之间的亲和力,可以通过对构造的拉普拉斯矩阵的谱分析来揭示具有语义边界的软段。 所提出的用于软段的松弛稀疏化方法可以生成精确的软转换,同时还提供稀疏的层组。 我们已经证明,虽然语义分割光谱软分割方法无法提供足够精确的图像编辑任务层,但我们的软片段提供了方便的中间图像表示使得几个目标图像编辑任务变得微不足道,否则需要熟练的艺术家手工劳动。

运行过程,可以看出其运行原理:

Semantic Soft Segmentation
     Computing affinities
     Computing eigenvectors
     Initial optimization
          Computing k-means initialization using semantic features...
          Starting optimization...
               Iteration 10 of 40
               Iteration 20 of 40
               Iteration 30 of 40
               Iteration 40 of 40
     Final optimization
               Iteration 5 of 20
               Iteration 10 of 20
               Iteration 15 of 20
               Iteration 20 of 20
pcg 在解的 迭代 17 处收敛,并且相对残差为 6.9e-07。
     Done.
Spectral Matting
     Computing affinities
     Computing eigenvectors
     Optimization
          Computing k-means initialization...
          Starting optimization...
               Iteration 10 of 20
               Iteration 20 of 20
     Done.
>> 

官方结果图:
在这里插入图片描述

下面是我的个人测试结果:
在这里插入图片描述
看出差距了吧。。哈哈
 
再来点个人图(高清):
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
每次运行得到的结果都有点区别,而且算法只能计算宽大于高的图片,否则报未知错误。测试4G内存笔记本跑大于1M图片卡死,测试500k图片运行时间10分钟左右吧。测试效果。。emmm。。。

已标记关键词 清除标记
©️2020 CSDN 皮肤主题: 编程工作室 设计师:CSDN官方博客 返回首页