深度学习 第6页
GPT-2:迈向先进语言模型的大步-点头深度学习网站

GPT-2:迈向先进语言模型的大步

2023年,我们见证了机器学习的一个耀眼应用——OpenAI的Chat GPT。这个模型不仅仅展现了写作连贯、充满激情的文章的能力,更超出了我们对当前语言模型能力的预期。Chat GPT虽然并非一个特别新颖...
点点的头像-点头深度学习网站点点8个月前
06210
MLP-Mixer: 并肩卷积与自注意,多层感知机的神奇魔法-点头深度学习网站

MLP-Mixer: 并肩卷积与自注意,多层感知机的神奇魔法

0.引言 MLP-Mixer模型是谷歌AI团队于2021年初发表的文章,题为MLP-Mixer: An all-MLP Architecture for Vision。在计算机视觉领域的历史上,卷积神经网络一直是首选的模型。然而最近,注意力机...
点点的头像-点头深度学习网站点点8个月前
06014
Wasserstein GAN-点头深度学习网站

Wasserstein GAN

引言 WGAN,即Wasserstein GAN,旨在解决传统GAN训练中的一些问题,尤其是训练不稳定和梯度消失。WGAN通过使用Wasserstein距离(Earth-Mover距离或EM距离)来衡量真实数据分布和生成数据分布之...
点点的头像-点头深度学习网站点点7个月前
05911
深度学习梯度弥散与爆炸-点头深度学习网站

深度学习梯度弥散与爆炸

问题描述 梯度弥散:在深层神经网络中,梯度弥散是指在反向传播过程中梯度逐渐变小,以至于在网络的较浅层梯度接近于零。这导致网络的这些层的权重几乎不更新,使得模型难以学习到输入数据的复...
点点的头像-点头深度学习网站点点9个月前
05710
循环神经网络(RNN)算法详解-点头深度学习网站

循环神经网络(RNN)算法详解

引言 在第三章中,我们探讨了全连接神经网络(FCNN)和卷积神经网络(CNN)的结构,以及它们的训练方法和使用场景。值得注意的是,这两种网络结构都是处理独立的输入数据,即它们无法记忆或理解...
点点的头像-点头深度学习网站点点8个月前
0575