排序
GoogLeNet:探索宽度的力量
0.引言 在2014年的ImageNet挑战赛(ILSVRC14)上,GoogLeNet和VGGNet成为了当年的双雄。GoogLeNet获得了图片分类大赛的第一名,VGGNet紧随其后。这两种模型的共同特点是网络深度更深。VGGNet是...
Transformer算法详解
算法简介 Transformer架构于2017年6月推出。最初的研究重点是自然语言处理领域的翻译任务。随后,几个具有影响力的模型被引入,包括: (1)2018年6月:GPT,第一个预训练的Transformer模型,用...
扩散模型(Diffusion Model)
扩散模型的基本原理 Denoising Diffusion Probabilistic Models (DDPM) 是一种利用扩散过程来生成样本的深度学习模型。其主要的灵感来源于扩散过程,通过逐渐增加噪音来模糊一个初始的图像,并...
ShuffleNet:轻量化网络
1. ShuffleNet V1 ShuffleNet V1是由旷视科技在2017年底为移动设备打造的轻量级卷积神经网络。其创新之处在于采用了组卷积(Group Convolution)和通道打散(Channel Shuffle)的方法,保证网络...
MLP-Mixer: 并肩卷积与自注意,多层感知机的神奇魔法
0.引言 MLP-Mixer模型是谷歌AI团队于2021年初发表的文章,题为MLP-Mixer: An all-MLP Architecture for Vision。在计算机视觉领域的历史上,卷积神经网络一直是首选的模型。然而最近,注意力机...
过拟合与欠拟合
过拟合与欠拟合 过拟合和欠拟合现象的定义 过拟合和欠拟合模型是深度学习模型在训练过程中比较容易出现的不好的现象。 当模型的表现能力弱于事件的真实表现时,会出现欠拟合现象。某个非线性模...
BERT, ELMo大语言模型详解
引言 2018年,对于处理文本的机器学习模型来说,可谓是一个转折点(更准确地说,是自然语言处理或简称NLP领域)。我们对于如何最佳地表示词语和句子,以捕捉其潜在的含义和关系的理解正在迅速发...
f-GAN
引言 2016年的论文《f-GAN: Training Generative Neural Samplers using Variational Divergence Minimization》引入了一种新的生成对抗网络(GAN)框架,名为f-GAN。这篇论文通过将传统的GAN训...
循环神经网络(RNN)算法详解
引言 在第三章中,我们探讨了全连接神经网络(FCNN)和卷积神经网络(CNN)的结构,以及它们的训练方法和使用场景。值得注意的是,这两种网络结构都是处理独立的输入数据,即它们无法记忆或理解...
GPT-2:迈向先进语言模型的大步
2023年,我们见证了机器学习的一个耀眼应用——OpenAI的Chat GPT。这个模型不仅仅展现了写作连贯、充满激情的文章的能力,更超出了我们对当前语言模型能力的预期。Chat GPT虽然并非一个特别新颖...