影像方向-点头深度学习网站-第2页

编码器-解码器模型（Encoder-Decoder）

编码器-解码器模型简介 Encoder-Decoder算法是一种深度学习模型结构，广泛应用于自然语言处理（NLP）、图像处理、语音识别等领域。它主要由两部分组成：编码器（Encoder）和解码器（Decoder）。...

点点11个月前

09712

1.MobileNet V1 MobileNet系列是由谷歌公司的Andrew G. Howard等人于2016年提出的轻量级网络结构，并于2017年发布在arXiv上。MobileNet系列的特点是模型小、计算速度快，适合部署到移动端或者嵌...

点点1年前

016112

0.引言深度残差网络（Deep Residual Network, ResNet）的提出是基于卷积算法处理图像问题领域的一件里程碑事件。ResNet在2015年发表当年取得了图像分类、检测等5项大赛第一，并再次刷新了CNN模...

点点1年前

015511

1.VGGNet模型总览 2014年，牛津大学计算机视觉组（Visual Geometry Group）和Google DeepMind公司的研究员Karen Simonyan和Andrew Zisserman研发出了新的深度卷积神经网络：VGGNet，并在ILSVRC2...

点点1年前

011511

1.AlexNet理论 AlexNet模型与LeNet模型有很多相似之处，它可以被看作是LeNet的改进版本，都由卷积层和全连接层构成。然而，AlexNet之所以能够在ImageNet比赛中大获成功，还要归功于其独特...

点点1年前

020311

0.引言经过前几个MLP模型的介绍，相信很多读者都会思考一个问题：在计算机视觉任务中，哪种算法更适合呢？事实上，MetaFormer模型给出了答案：算法并不是最重要的，框架结构才是关键。MetaForm...

点点11个月前

013511

引言 WGAN，即Wasserstein GAN，旨在解决传统GAN训练中的一些问题，尤其是训练不稳定和梯度消失。WGAN通过使用Wasserstein距离（Earth-Mover距离或EM距离）来衡量真实数据分布和生成数据分布之...

点点10个月前

06811

0.引言 AS-MLP模型出自上海科技大学和腾讯优图实验室共同合作发表的文章，题为AS-MLP: AN AXIAL SHIFTED MLP ARCHITECTURE FOR VISION。纯MLP网络架构专注于全局的信息交流，却忽略了局部信息的...

点点11个月前

010210

扩散模型的基本原理 Denoising Diffusion Probabilistic Models (DDPM) 是一种利用扩散过程来生成样本的深度学习模型。其主要的灵感来源于扩散过程，通过逐渐增加噪音来模糊一个初始的图像，并...

点点10个月前

026310

1.EfficientNetV1 EfficientNet源自Google Brain的论文EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks。从标题中可以看出，这篇论文最主要的创新点是模型缩放。论...

点点12个月前

031510