【时讯】渲染思路做图像分割：何恺明等人提出PointRend-吉林福音时报

本篇文章4566字，读完约11分钟

机械心机械心报道参与:魔王，一声facebook fair实验室再次创新了图像分割算法，这次采用了图像渲染的设想算法可以集成为神经互联网模块，可以显着提高mask r-cnn和deeplabv3的性能实例分割是计算机视觉任务的一项重要的任务以前传输的例子的分割方法是输入图像，预测图像的各像素点，估计像素点所属的实例标签，区分属于不同实例的像素点然而，现有方法可能过度计算平滑的像素点划分边界，错误地分割了本来应该具有明确且连续的边界的示例性边缘像素点为了解决这个问题，何鼎明等人提出了优化这个问题处理的新的实例分割方法说到何鼎明，网民们不知道近年来，他在语义分割和实例分割行业做了很多独创的工作，提高了分割效果例如，在事例分割中提出了全景分割的方法，在语义分割中提出了具有惊人效果的tensormask 最近，alexander kirillov (一作)、吴育昕、何昆明等从计算机渲染的角度出发，提出了进一步提高图像分割过程中平滑性和分割细节效果的pointrend方法这种方法对现有的互联网体系结构有很大影响吗？研究人员认为，这种方法可以作为现有图像分割架构的一个模块他们用mask r- cnn和deeplabv3等模型进行测试，性能提高显着，计算力的占有小这篇论文的作者包括我们熟悉的何克明和吴育昕，他们多次在一点研究上合作另外，也有与何鼎明在tensormask等论文中进行合作的ross girshick 论文地址: arxiv/pdf/1912.08193.pdf这篇论文的具体做法和效果怎么样？机器的心把它编译整理了引言图像分割任务涉及将规则网格中采样的像素映射到同一网格上的(一个或多个)标签映射。在语义分割任务中，标签图表示针对各像素预测类别另外一方面，在实例分割任务中，各被检测者需要预测二维前景背景图这些任务基本上是基于卷积神经网络( cnn )构建的用于图像分割任务的cnn通常基于规则网格执行。输入是图像像素的规则网格，隐藏表示是基于规则网格的特征向量，输出是基于规则网格的标签映射。规则网格很有用，但在计算方面图像分割不一定完美这些互联网预测的标签图基本上应该是平滑的。也就是说，相邻的像素通常使用相同的标签。这是因为高频区域被限制在对象之间的稀疏边界上。规则网格可能会对平滑区域进行过采样，对对象边界进行欠采样由此，在平滑区域中进行过剩的计算，预测结果的轮廓模糊(参照图1左上) 这样，图像分割方法通常根据低分辨率规则网格预测标签，例如在语义分割任务中输入1/8，或者输入实例分割中的28×28等，欠采样和过采样之间的妥当性图使用了pointrend的实例分割和以前传达的方法用以往的方法(左)分割时，图像分辨率低，分割效果差几十年来，计算机图形学行业研究了许多类似的采样问题例如，渲染器将模型(如3d网格)映射到光栅图像，即像素规则网格输出基于规则网格，但计算不基于网格平均分配一般的图形学策略是为图像平面中自适应选择的点的不规则子集计算像素值例如，[48]的典型细分技术获取了四树采样模式，以便有效地渲染抗锯齿( anti-aliased )的高分辨率图像按照同样的思路，何炳明等人的研究者在研究中把图像分割看作是渲染问题，利用计算机图形学中的古典思想有效地“渲染”优质的标签图(参照图1左下)。研究者将这一思想实现为一种新的神经网络模块——pointrend，采用细分策略自适应地选择了一组不均匀点，计算了标签 pointrend可以合并到常见的实例分区元架构(如mask r-cnn [19] )和语义分区元架构(如fcn [35] ) 其细分战略利用比直接密集计算少一位数的浮点运算，有效地计算高分辨率分割图 pointrend是通用模块，允许多个可能的实现抽象地说，pointrend模块接受基于规则网格定义输出基于更细粒度网格的高分辨率预测结果p(x'_i，y'_i )的一个以上典型的cnn特性图f(x_i，y_i )作为输入 pointrend不对输出网格上的所有点执行过度预测，而只对仔细选择的点执行预测因此，pointrend插补f，提取所选择的点的每一点的特征表现，使用一个小型point head子互联网基于这些每一点的特征预测输出标签本文介绍了简洁高效的pointrend实现研究者利用coco [29]和cityscapes [9]的基准数据集，判断了pointrend在实例分割和语义分割任务中的性能定性地说，pointrend可以有效地计算对象之间的明确边界。参照图2和图8 图2:mask r-cnn [19] +标准掩码头的结果示例(左图像) vs mask r-cnn + pointrend的结果示例(右图像) 型号采用resnet-50和fpn 图cityscapes样本中模型的实例分割和语义分割的结果研究者还关注提高定量水平的性能，但这些任务基于标准的iou测量指标( mask ap和miou )，偏向于对象内部的像素，对边界改善比较不敏感但是，pointrend仍然提高了mask rcnn和deeplabv3 [5]的性能方法研究者把计算机视觉中的图像分割比作计算机图形学中的图像渲染渲染是将模型(如3d网格)显示为像素的普通网格，即图像输出表示为规则网格，但其基础物理实体(如3d模型)是连续的，使用物理和几何推理(如光线跟踪)时，在图像平面的任何真值点将其物理占用(如physical occupe ) 同样，在计算机视觉中，以图像分割为基础的连续实体的占有图，分割输出(预测标签的规则网格)是基于其“渲染”得到的该实体被编码为互联网特征图，可以通过内插到任意点来判断训练参数化函数，根据这些插值点的特征表现，预测占有这些参数化函数与计算机图形中的物理和几何推理是同等的。基于此类比，研究者提出了pointrend(pointbased rendering，“基于点的渲染”)，用点的表示处理图像分割问题入口模块接收包括c通道的一个或多个典型的cnn特征地图f ∈ r^(c×h×w )，各个特征地图基于规则的网格定义(粗糙度通常是图像网格的4-16倍)，输出预测结果 pointrend模块包括三个主要组件。 1 .点选择策略:选择少量真实值点执行预测，以避免过度计算高分辨率输出网格中的所有像素。 2 .对选择的各点提取每个点的特征:使用各选择点的f规则网格上的4个最近邻点，使用f的双线性插值计算真值点的特征因此，这种方法可以利用编码到f信道维度的子像素新闻，预测分辨率比f高的分割3. point head :用于根据每个点的特征显示预测标签的小型神经网络 pointrend模式可以应用于实例划分(如mask r-cnn [19] )和语义划分(如fcn [35] )的任务在实例分割任务中，pointrend应用于各区域，通过对选择的一组点执行预测，以从粗糙度到细粒度的方法计算掩模(参照图3 )。在语义分割任务中，由于整个图像被视为一个区域，所以可以在不损害通用性的情况下在实例分割语境中记述pointrend 让我们详细看看pointrend的三个主要组件图3:pointrend应用于实例划分任务选择点进行估计和训练的中心思想是灵活、自适应地选择图像平面内的点，预测分割标签直观上，这些点的位置必须与高频区域(如对象边界)紧密相邻，类似于光线跟踪抗锯齿问题研究者把这个想法应用于估计和训练用于估计的点选择策略被开发出了计算机图形学中的称为自适应细分( adaptive subpision )的古典技术该技术通过计算与邻居值不同的位置，有效地渲染光线跟踪等高分辨率图像。其他位置的值是通过插值计算的输出值获得的(从粗糙网格开始)。训练:在训练过程中，pointrend还必须选择一个点来建立训练point head所需的每点特征基本上，点选择策略类似于估计过程中采用的细分策略但是，细分战略中采用的步骤对利用反向传递训练神经网络不太友好因此，训练过程采用基于随机采样的非迭代策略每个点的表示和point headpointrend通过组合细粒度和粗细预测特征这两种特征类型，构建每个所选点的特征实验:实例分割表1显示了pointrend和mask r-cnn中默认的4x卷积head的性能 pointrend在coco和cityscapes数据集上的性能超过了mask r-cnn的默认head 表1:pointrend vs mask r-cnn默认4×卷积遮罩head的性能是多少细分策略中采用的浮点和内存小于默认4 x卷积head的1/30，但pointrend可以获得高分辨率的预测结果( 224×224 )。见下表2。 pointrend是忽略对象中的粗粒度预测就足够的区域，在计算量大幅减少的情况下输出与mask r-cnn框架相同的高分辨率结果表2:224×224输出分辨率掩码的浮点(乘法)和活动计数以下表3显示了在不同的输出分辨率和各细分步骤中不同的选择点数时的pointrend的细分估计性能表3 :细分估计参数可以通过预测更高分辨率的掩模来改善结果虽然ap饱和，但是按照输出分辨率从低到高(例如从56×56到224×224 )的顺序，视觉上的提高依然显着(参照图7 )。图7 :邦德的抗锯齿效果表4显示了pointrend在培训过程中采用不同点选择策略时的性能表4 :培训时不同点选择策略的性能在每个边界框中有142点下表5显示了pointrend和基线的情况。 pointrend的性能超过基线模型，基线模型的训练时间比pointrend长，模型规模也比pointrend大。表5 :基线模型和pointrend性能基线模型大于pointrend，其训练时间是pointrend的3倍实验:语义分割下表6显示了deeplabv3和deeplabv3 + pointrend的对应情况表cityscapes语义分割任务中的6:deeplabv3 + pointrend的性能超过了基线deeplabv3 通过在res_4阶段采用空孔卷积，可以将估计时的输出分辨率提高一倍。 [5] 与此相对，pointrend具备更高的miou 定性提高也很明显，参照图8 图cityscapes样本中模型的实例分割和语义分割的结果通过自适应地采样点，点对32k点进行预测，达到1024×2048的分辨率(即2m点) (参照图9 )。图9 :语义分割任务中9:pointrend的估计下表7显示了改变8倍和4倍的输出步幅时的semanticfpn+pointrend的性能比semanticfpn有所提高在表cityscapes语义分割任务中，semanticfpn+pointrend的性能超过了基线semanticfpn 原标题:“ross、何鼎明等人提出了pointrend :渲染构想，进行图像分割，提高mask r-cnn的性能”

来源：吉林福音时报

标题：【时讯】渲染思路做图像分割：何恺明等人提出PointRend

地址：http://www.jxjgzhdj.cn/jlxw/19989.html

【时讯】渲染思路做图像分割：何恺明等人提出PointRend

吉林福音时报推荐浏览

二次结构输送泵怎么选？-从性能出发

LANGMA双十一盛惠，携手进博会共谱商业新篇章

第七届进博会东方卫视深度专访LANGMA，揭秘品牌全球战略发展

装饰网平台盛大上线，甘毅辉邀您共享商机！

伊兹密尔之旅：爱琴海畔的明珠

LANGMA 2024业绩破亿展宏图，双十一进博双赢创高峰

选择宝山区专业防静电货架厂家时，这些要素不可忽视！_佰斯特POUSTO

娄底TOTO卫浴、鹰卫浴旗舰店盛大开业

环球度假区创始人雷春梅：机会面前人人平等！！！！

rank函数负数排名_rank函数正数负数分别排名

吉林福音时报新资讯

吉林福音时报浏览榜