RepVGG: Making VGG-style ConvNets Great Again Abstract 我们提出了一种简单而强大的卷积神经网络架构,它具有一个类似于vgg的推理时间体,由3 × 3卷积和ReLU的堆栈组成,而训练时间模型具有多分支拓扑结构。这种训练时间和推理时间架构的解耦是通过结构重新参数化技术实现的,因此该模型被命名为RepVGG。在ImageNet上,RepVGG达到了80%以上的top-1精度,据我们所知,这是一个普通模型的第一次。在NVIDIA 1080Ti GPU上,RepVGG模型的运行速度比ResNet-50快83%,比ResNet-101快101%,精度更高,与最先进的模型(如EfficientNet和RegNet)相比,显示出良好的精度-速度权衡。代码和训练过的模型可以在https://github.com/megvii-model/RepVGG上找到。
- Introduction 经典的卷积神经网络(ConvNet) VGG[31]在图像识别方面取得了巨大的成功,其简单的架构由conv、ReLU和池化组成。随着Inception [33,34,32,19], ResNet[12]和DenseNet[17],许多研究兴趣转移到精心设计的架构上,使得模型越来越复杂。一些最近的架构是基于自动[44,29,23]或手动[28]架构搜索,或搜索复合扩展策略[35]。
虽然许多复杂的卷积网络比简单的卷积网络具有更高的精度,但缺点是显著的。1)复杂的多分支设计(如ResNet中的残差和Inception中的分支拼接)使模型难以实现和定制,降低了推理速度和内存利用率。2)一些组件(如Xception[3]和MobileNets[16,30]中的深度卷积和ShuffleNets[24,41]中的channel shuffle)增加了内存访问成本,缺乏各种设备的支持。由于影响推理速度的因素太多,浮点运算(FLOPs)的数量并不能准确反映实际速度。虽然一些新模型的FLOPs比VGG和ResNet-18/34/50[12]等老式模型低,但它们可能不会运行得更快(表4)。因此,VGG和ResNets的原始版本仍然在学术界和工业界的实际应用中大量使用。
在本文中,我们提出了RepVGG,一种vgg风格的体系结构,它优于许多复杂的模型(图1)。RepVGG有以下优点。 •该模型具有类似于vgg的平面(也称为前馈)拓扑,没有任何分支,这意味着每一层都将其唯一上一层的输出作为输入,并将输出馈送到唯一下一层。 •模型的主体只使用3 × 3的conv和ReLU。 •具体的架构(包括具体的深度和层宽)实例化,没有自动搜索[44],手动细化[28],复合缩放[35],也没有其他繁重的设计。