MetaFormer: 万法归一，构建未来的Transformer模板-点头深度学习网站

0.引言

经过前几个MLP模型的介绍，相信很多读者都会思考一个问题：在计算机视觉任务中，哪种算法更适合呢？事实上，MetaFormer模型给出了答案：算法并不是最重要的，框架结构才是关键。MetaFormer是一种从Transformer模型中抽象出来的通用架构，没有指定Token Mixer，并在分类、检测和分割任务上进行了验证。

Transformer在计算机视觉任务中显示出巨大的潜力。最初，很多研究者们都认为基于注意力的Token Mixer模块（即self-attention）对模型的能力贡献最大。然而，从之前的介绍里可以发现，Transformers中基于注意力的模块可以被卷积神经网络、甚至MLP取代，而模型的表现仍然相当出色。

基于这一观察，MetaFormer假设是Transformer的通用架构，而不是特定的Token Mixer模块，对模型的性能更加重要。为了验证这一点，MetaFormer特意用一个非常简单的空间池化算子来替换Transformer中的注意力模块，以进行最基本的Token混合。池化算子本身不带有任何学习参数，但模型的表现仍然不错。因此，将Transformer的通用架构提取出来作为计算机视觉任务模型设计的核心，并称呼这个架构为MetaFormer。

论文名称：MetaFormer is Actually What You Need for Vision

下载地址：https://arxiv.org/abs/2111.11418v1

1.MetaFormer模型

为了证明Transformer结构才是模型有效的主要原因，而不是基于自注意力的Token这一观点，MetaFormer模型使用了“非常简单”的非参数空间平均池化层替换了注意力模块，并在不同的计算机视觉任务上取得了有竞争力的结果。

值得注意的是池化操作没有可学习的参数，只是简单地进行特征融合而已，这与自注意力计算过程中产生的大量参数和计算量形成了鲜明的对比。

替换后的模型被命名为PoolFormer，并在性能、参数数量和乘积和累加运算（MAC）方面与经典的基于Transformer的模型（例如DeiT）和基于MLP的-模型（例如ResMLP）进行了比较。结果表明这个模型能够在多个视觉任务中达到很好的表现，比如在ImageNet1K数据集中，能够达到82.5%的准确率，超过DeiT-B（Transformer架构）和ResMLP-B24（MLP架构）的同时还能够大幅减小参数量。较DeiT-B和ResMLP-B24分别减少了48%和60%的参数量。

PoolFormer的模型结构如图1所示。在PoolFormer中，输入首先进行Patch Embedding处理，类似于原始ViT的实现。然后将输出传递给D₀阶段中的一系列PoolFormer块中。在PoolFormer中，注意力模块被一个stride=1的池化块代替，它执行平均池化，简单地使每个Token的周边信息进行融合。在残差连接之后，经过一个MLP，与原始Transformer Block类似。

图片[1]-MetaFormer: 万法归一，构建未来的Transformer模板-点头深度学习网站 — 图1 PoolFormer模型结构图

重复整个过程，构建4个阶段（D₀-D₄ ）的层次结构，通过池化将图像的原始高度和宽度压缩到H/32和W/32。根据四个阶段计算得到的特征图的数量（C₁-C₄），可用定义了不同大小的模型。L则表示模型中PoolFormer Block的数量，假设L=12，阶段1、2和4将包含2（L/6=2）个PoolFormer块，而阶段3将包含6（L/2=6）个块。

在相同MACs下，PoolFormer相比较于其他先进模型（RSB-ResNet，DeiT，ResMLP）可以获得更高的图像识别准确率，如图2所示。

图片[2]-MetaFormer: 万法归一，构建未来的Transformer模板-点头深度学习网站 — 图2 PoolFormer效果

2.MetaFormer架构

PoolFormer的有效性验证了最初的假设，并促使了MetaFormer概念的提出，即这是一种从Transformer中抽象出来的通用架构，没有指定Token Mixer，如图3所示。

MetaFormer架构如图3(a)所示，即输入信息先经过层归一化处理后，进入Token Mixer做计算，在层归一化的Token Mixer两端有一条残差连接；接着将计算结果送入Channel MLP中做处理，再次经过一次层归一化操作，在层归一化和MLP的两端也有一条残差连接。至于Token Mixer中具体的计算结果并不重要，只要能对输入数据的空间信息做映射即可。当Token Mixer为注意力机制时，MetaFormer就变成了Transformer，如图3(b)所示；当Token Mixer为MLP机制时，MetaFormer就变成了MLP-like模型，如图3(c)所示；当Token Mixer为池化操作时，MetaFormer就变成了PoolFormer，如图3(d)所示。再回想一下之前讲过的模型VAN，实际上就是使用LKA作为Token Mixer。实际上，很多基于Transformer的改进模型都是可以用MetaFormer架构来定义的。

图片[3]-MetaFormer: 万法归一，构建未来的Transformer模板-点头深度学习网站 — 图3 MetaFormer结构图

MetaFormer是在视觉任务上，针对Transformer框架和MLP框架模型的总结性工作。这项工作旨在改进模型架构的未来研究，而不是专注于Token Mixer模块。此外，PoolFormer可以作为未来MetaFormer架构设计的起始基线。在这里，提到的Token Mixer并不是指该组件可以去掉，而是指Token Mixer的形式并不重要。无论是自注意力、Spatial-Shift MLP、卷积、逐层卷积，还是最简单的池化，只要能有效地融合空间信息，网络的最终性能就不会有太大的差别。因此，提升性能的原因可能在于金字塔结构、残差连接、归一化、GELU等因素。具备这些性质的网络都可以被称为MetaFormer。