何恺明 何恺明团队最新力作:超越EfficientNet GPU上提速5倍

栏目:生活 2021-10-05 09:26:38
分享到:

鱼和羊十三来自奥菲寺

量子报道| QbitAI,微信官方账号

大神做了一个奇怪的举动,踢飞了各种神经网络。

或者是一个熟悉的团队,或者是一个熟悉的签名,脸书AI Lab,推陈出新,挑战新的网络设计范式。

嗯,熟悉的罗斯,熟悉的贺,他们带来了一个全新的——RegNet。

网络设计范式不仅与当前的主流背道而驰:一个简单易懂的模型,而且还能承受很高的计算负荷。

并且在类似条件下,性能优于EfficientNet,在GPU上的速度提升了5倍!

新的网络设计范式结合了人工网络设计和神经网络搜索的优势:

像手动设计网络一样,它的目标是可解释性,它可以描述简单网络的一些一般设计原则,并在各种设置中推广它们。

像NAS一样,它可以使用半自动的过程来找到简单的模型,这些模型易于理解、构建和概括。

毫无疑问,该报还获得了2020年CVPR奖。

PS:论文是3月30日在arXiv发布的,所以你不用担心在愚人节被人笑话...

三组实验的对比几乎是“大满贯”

RegNet在性能上如此出众。

实验在ImageNet数据集上进行,目标非常明确:在各种环境下挑战神经网络。

让我们首先来看看与一些流行的移动神经网络的比较。

最近,许多网络设计工作都集中在移动机制上。

上表是比较600兆的RegNet和这些网络的结果。可以看出,无论是手动设计还是基于NAS的网络,RegNe都表现出色。

何明凯的团队强调,RegNet模型使用基本的100历元调度,除了权重衰减之外没有任何正则化。

然而,大多数移动网络使用更长的调度,并做了各种增强,如深度监控、剪切、DropPath等。

接下来,将RegNet与标准基线ResNet和ResNeXT进行比较。

公平地说,研究人员在相同的训练设置下对它们进行了比较,如下图所示:

总的来说,通过优化网络结构,RegNet模型在所有复杂度指标下都得到了很大的提升。

研究人员还强调,一个好的RegNet模型也适用于广泛的计算环境,包括ResNet和ResNeXT不适合的低计算环境。

在上表中,显示了按激活分组的比较。

研究人员将激活定义为所有conv层的输出张量的大小,这将像GPU一样对加速操作产生很大影响。

研究人员表示,这个设置意义重大,因为模型训练时间是一个瓶颈。未来可能有助于提高自动驾驶等场景下的推理时间。给定一个固定的推理或训练时间,RegNet是非常有效的。

在上表中,显示了根据触发器分组的比较。

最后是正则网和效率网的比较。

高效网代表了目前最流行的技术,对比结果如下图所示:

可以看出,EfficientNet在flops较低时有优势,但随着flops的增加,RegNetX和RegNetY逐渐发挥实力。

此外,何的团队发现,对于EfficentNet,激活与一偏线性相关;而对于RegNet,激活与触发器的平方根成线性关系。

因此,高效网的GPU训练和推理速度较慢。而RegNeTX-8000比Efficient net-B5快5倍,并且误差更低,如下表所示:

有了这样的表现,下一个问题来了,RegNet是怎么做出来的?

先建网络设计空房间

本文首先介绍了Radosavovic等人提出的网络设计空的概念。

核心思想是可以在设计空中对模型进行采样,从而生成模型分布,可以利用经典统计学中的工具对设计空进行分析。

在何团队的这项研究中,研究人员提出设计一个无限制的初始设计空并逐步简化它。这个过程叫做设计空。

在设计过程的每一步中,输入介于初始设计空之间,输出是更简单或更好的性能模型的简化模型。

设计空之间的质量可以通过对模型取样并检查其误差分布来表征。

比如上图,从初始设计空房间A开始,应用两个优化步骤生成设计空房间B,然后是C..

C B A,我们可以看到从A到B到c,误差分布逐渐改善。

也就是说,每个设计步骤的目的都是为了发现能够产生更简单有效模型的设计原则。

研究人员设计的最初设计空是AnyNet。

网络的基本设计很简单:主干+执行大量计算的网络主体+预测输出类别的标题。

网络的主体由一系列阶段组成,这些阶段以逐渐降低的分辨率运行。

除了第一个块,每个阶段都包含一系列相同的块。

虽然整体结构简单,但AnyNet设计空中可能存在的网络总数是巨大的。

实验多采用分组卷积的标准残差瓶颈块,研究者称之为X块,基于此的AnyNet设计空称为AnyNetX。

在AnyNetX,研究人员旨在实现四个目标:

简化设计空之间的结构

提高设计空之间的可解释性

提高或保持设计质量/

保持设计空之间的模型多样性

因此,最初的AnyNetX被称为AnyNetXA,开始了“ABCDE”的优化过程。

首先,对于AnyNetXA设计空之间的所有阶段,测试共享瓶颈比bi = b,得到的设计空成为AnyNetXB。

同样,在相同的设置下,从AnyNetXB中采样并训练了500个模型。

在平均和最佳条件下,AnyNetXA和AnyNetXB的EDF几乎不变。结果表明,耦合bi时没有精度损失。而且AnyNetXB更容易分析。

然后,从AnyNetXB,使用所有阶段的共享组宽度来获得AnyNetXC。

像以前一样,法国电力几乎没有改变。

然后,研究人员在AnyNetXC中测试了好网络和坏网络的典型网络结构。

他们发现一个好的网络的宽度正在增加。

于是,他们增加了设计原则wi+1 ≥ wi,并以此约束称之为design 空为AnyNetXD。

这大大提高了EDF。

△左:AnyNetXD,右:AnyNetXE

对于最佳模型,除了最后一个阶段,不仅阶段宽度wi在增加,而且阶段深度di也有相同的趋势。

因此,在加上di+1 ≥ di的约束条件后,结果又有所改善。那是任何网络。

在对AnyNetXE的进一步观察中,提出了RegNet的一个核心观点:一个好网络的宽度和深度可以用一个定量的线性函数来解释。

从AnyNetXA到RegNetX,维度从16缩减到6,大小缩减了近10个数量级。

从下图可以看出,该模型在RegNetX中的平均误差低于在AnyNetX中的平均误差。而且,RegNetX的随机搜索效率要高得多,搜索32个左右的随机模型就能产生好的模型。

设计空之间的一般化

首先,为了提高效率,研究人员设计了低计算、低训练时的RegNet design 空房间。

然而,他们的目标不是针对特定的环境,而是发现网络设计的一般原则。

因此,他们将RegNetX与AnyNetXA和AnyNetXE在一个具有更高触发器和更高历元的5步网络中以及在不同的块中进行了比较。

在所有情况下,设计空之间不存在拟合现象。

也就是说,RegNet具有很好的泛化能力。

最后,让我们像往常一样介绍一下这个AI研究梦之队。

一张熟悉的脸,一个熟悉的团队

罗斯和贺,这个组合很熟悉。

这五位作者都来自脸书人工智能研究所。

伦敦帝国理工学院的本科助教伊利娅·拉多萨沃维奇在脸书实习。

分别毕业于佐治亚理工学院和芝加哥大学的Raj Prateek Kosaraju和Ross Girshick博士是FAIR计算机视觉领域的科学家。

最后一位作者Piotr Dollar毕业于加州大学圣地亚哥分校,获得博士学位,目前在FAIR工作。

中国人最熟悉的自然是天才的人工智能研究者何。

而且,何团队提出的RegNet与他的代表作——Resnet-2016年最佳论文奖在名称上也很相似。

此外,明凯还分别获得了2009年和2017年的CVPR最佳论文奖,后来者仍难有。

有趣的是,在这项研究中,ResNet被用作比较的基线。

然而,毫不奇怪的是,根据近年来的研究,何正在不断突破他以前的方法和研究。

在超越何的道路上,何目前依然是跑得最快的。

嗯,大神的幸福就是这么朴实低调。

先尊重电影吧,如何评价RegNet就留给大家了~

-结束-