影像方向-点头深度学习网站-第3页

ConvNeXt：卷积与设计策略的新篇章

0.引言自从ViT模型被提出以后，在过去的几年里，Transformer在深度学习领域大杀四方。回顾近几年，在计算机视觉领域发表的文章绝大多数都是基于Transformer模型的，比如2021年ICCV的Best Paper...

点点10个月前

010415

0.引言作为CVPR2017年的最佳论文，DenseNet模型脱离了通过加深网络层数（如VGGNet、ResNet）和加宽网络结构（如GoogLeNet）来提升网络性能的定式思维。转而从特征的角度考虑，通过特征重用和旁...

点点11个月前

010314

0.引言 Swin Transformer是2021年微软研究院发表在ICCV（International Conference on Computer Vision）上的一篇文章，并且已经获得ICCV 2021最佳论文（Best Paper）的荣誉称号。Swin Transfor...

点点11个月前

0987

0.引言虽然Transformer最初是为自然语言处理任务而设计的，但最近已经在各种计算机视觉领域掀起了风暴。然而，图像是有空间信息的二维数据，这给计算机视觉中应用Transformer带来了三个挑战： ...

点点10个月前

0976

算法简介 Transformer架构于2017年6月推出。最初的研究重点是自然语言处理领域的翻译任务。随后，几个具有影响力的模型被引入，包括：（1）2018年6月：GPT，第一个预训练的Transformer模型，用...

点点11个月前

0966

0.引言 AS-MLP模型出自上海科技大学和腾讯优图实验室共同合作发表的文章，题为AS-MLP: AN AXIAL SHIFTED MLP ARCHITECTURE FOR VISION。纯MLP网络架构专注于全局的信息交流，却忽略了局部信息的...

点点10个月前

09510

编码器-解码器模型简介 Encoder-Decoder算法是一种深度学习模型结构，广泛应用于自然语言处理（NLP）、图像处理、语音识别等领域。它主要由两部分组成：编码器（Encoder）和解码器（Decoder）。...

点点10个月前

09312

“Improved Techniques for Training GANs”是一篇由Ian J. Goodfellow 和他的同事在 2016 年发表的论文，这篇论文对生成对抗网络（GANs）的训练过程做出了重要的改进和提议。这些改进主要集中...

点点9个月前

09112

引言卷积神经网络（Convolutional Neural Networks, CNN）是一类包含卷积计算且具有深度结构的前馈神经网络（Feedforward Neural Networks, FNN），是深度学习的代表算法之一。对卷积神...

点点11个月前

0869

1、设计动机设计RepVGG的初衷是为了解决许多流行的深度学习模型在追求更高性能的过程中不断增加结构复杂性的问题。例如，为了提高性能，许多模型采用了如残差连接、瓶颈设计、组卷积等复杂设计...

点点11个月前

0865