排序
GPT-2:迈向先进语言模型的大步
2023年,我们见证了机器学习的一个耀眼应用——OpenAI的Chat GPT。这个模型不仅仅展现了写作连贯、充满激情的文章的能力,更超出了我们对当前语言模型能力的预期。Chat GPT虽然并非一个特别新颖...
MLP-Mixer: 并肩卷积与自注意,多层感知机的神奇魔法
0.引言 MLP-Mixer模型是谷歌AI团队于2021年初发表的文章,题为MLP-Mixer: An all-MLP Architecture for Vision。在计算机视觉领域的历史上,卷积神经网络一直是首选的模型。然而最近,注意力机...
Wasserstein GAN
引言 WGAN,即Wasserstein GAN,旨在解决传统GAN训练中的一些问题,尤其是训练不稳定和梯度消失。WGAN通过使用Wasserstein距离(Earth-Mover距离或EM距离)来衡量真实数据分布和生成数据分布之...
深度学习梯度弥散与爆炸
问题描述 梯度弥散:在深层神经网络中,梯度弥散是指在反向传播过程中梯度逐渐变小,以至于在网络的较浅层梯度接近于零。这导致网络的这些层的权重几乎不更新,使得模型难以学习到输入数据的复...
循环神经网络(RNN)算法详解
引言 在第三章中,我们探讨了全连接神经网络(FCNN)和卷积神经网络(CNN)的结构,以及它们的训练方法和使用场景。值得注意的是,这两种网络结构都是处理独立的输入数据,即它们无法记忆或理解...