排序
Wasserstein GAN
引言 WGAN,即Wasserstein GAN,旨在解决传统GAN训练中的一些问题,尤其是训练不稳定和梯度消失。WGAN通过使用Wasserstein距离(Earth-Mover距离或EM距离)来衡量真实数据分布和生成数据分布之...
深度学习模型九大经典初始化方案
1. 正态分布初始化 正态分布初始化将权重初始化为来自正态(或高斯)分布的随机数。该分布通常以0为均值,其标准差(或方差)可以根据网络的特定需求进行调整。这种方法在保证权重不会开始时过...
AlexNet:深度学习崛起的标志
1.AlexNet理论 AlexNet模型与LeNet模型有很多相似之处,它可以被看作是LeNet的改进版本,都由卷积层和全连接层构成。然而,AlexNet之所以能够在ImageNet比赛中大获成功,还要归功于其独特...
编码器-解码器模型(Encoder-Decoder)
编码器-解码器模型简介 Encoder-Decoder算法是一种深度学习模型结构,广泛应用于自然语言处理(NLP)、图像处理、语音识别等领域。它主要由两部分组成:编码器(Encoder)和解码器(Decoder)。...
循环神经网络(RNN)算法详解
引言 在第三章中,我们探讨了全连接神经网络(FCNN)和卷积神经网络(CNN)的结构,以及它们的训练方法和使用场景。值得注意的是,这两种网络结构都是处理独立的输入数据,即它们无法记忆或理解...
图神经网络基础:图论
引言 图在我们身边随处可见;现实世界中的物体通常是以它们与其它事物的联系来定义的。一组物体以及它们之间的联系,都可以自然地表达为一个图。十多年来,研究人员已经开发了在图数据上操作的...
Transformer算法详解
算法简介 Transformer架构于2017年6月推出。最初的研究重点是自然语言处理领域的翻译任务。随后,几个具有影响力的模型被引入,包括: (1)2018年6月:GPT,第一个预训练的Transformer模型,用...
神经网络算法详解
引言 神经网络,作为人工智能和机器学习领域的核心技术之一,具有极其重要的意义。它们通过模拟人类大脑的工作机制,使计算机能够学习和识别复杂的模式和数据。这种能力使得神经网络在诸多领域...
GPT-3:大语言模型的爆发
引言 在科技界,GPT3的热潮正如火如荼地展开。这类庞大的语言模型(比如GPT3)开始以它们惊人的能力让我们惊叹。虽然现在对于大多数企业来说,将它们直接应用于面对客户的业务中还不够可靠,但...
EfficientNet:轻量化网络
1.EfficientNetV1 EfficientNet源自Google Brain的论文EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks。从标题中可以看出,这篇论文最主要的创新点是模型缩放。论...