时序方向共12篇
Transformer算法详解-点头深度学习网站

Transformer算法详解

算法简介 Transformer架构于2017年6月推出。最初的研究重点是自然语言处理领域的翻译任务。随后,几个具有影响力的模型被引入,包括: (1)2018年6月:GPT,第一个预训练的Transformer模型,用...
点点的头像-点头深度学习网站点点9个月前
0756
 BERT, ELMo大语言模型详解-点头深度学习网站

 BERT, ELMo大语言模型详解

引言 2018年,对于处理文本的机器学习模型来说,可谓是一个转折点(更准确地说,是自然语言处理或简称NLP领域)。我们对于如何最佳地表示词语和句子,以捕捉其潜在的含义和关系的理解正在迅速发...
点点的头像-点头深度学习网站点点8个月前
09611
基于注意力机制的循环神经网络(Attention-Based RNN)-点头深度学习网站

基于注意力机制的循环神经网络(Attention-Based RNN)

算法原理 Attention-Based RNN 是一种基于注意力机制的 RNN 变体模型,它通过引入注意力机制来对序列中的不同部分进行加权,从而能够更好地捕捉序列数据中的重要信息。Attention-Based RNN...
点点的头像-点头深度学习网站点点8个月前
06314
深度学习模型九大经典初始化方案-点头深度学习网站

深度学习模型九大经典初始化方案

1. 正态分布初始化 正态分布初始化将权重初始化为来自正态(或高斯)分布的随机数。该分布通常以0为均值,其标准差(或方差)可以根据网络的特定需求进行调整。这种方法在保证权重不会开始时过...
点点的头像-点头深度学习网站点点9个月前
07414
长短期记忆网络(LSTM)和门控循环单元(GRU)算法详解-点头深度学习网站

长短期记忆网络(LSTM)和门控循环单元(GRU)算法详解

引言 传统循环神经网络在处理长序列时面临梯度消失或爆炸问题。梯度消失是指在训练过程中,误差反向传播时,梯度随着时间步数的增加而指数级衰减。梯度爆炸则正好相反,这会导致模型难以学习到...
点点的头像-点头深度学习网站点点8个月前
0719
循环神经网络(RNN)算法详解-点头深度学习网站

循环神经网络(RNN)算法详解

引言 在第三章中,我们探讨了全连接神经网络(FCNN)和卷积神经网络(CNN)的结构,以及它们的训练方法和使用场景。值得注意的是,这两种网络结构都是处理独立的输入数据,即它们无法记忆或理解...
点点的头像-点头深度学习网站点点8个月前
0575
神经网络算法详解-点头深度学习网站

神经网络算法详解

引言 神经网络,作为人工智能和机器学习领域的核心技术之一,具有极其重要的意义。它们通过模拟人类大脑的工作机制,使计算机能够学习和识别复杂的模式和数据。这种能力使得神经网络在诸多领域...
点点的头像-点头深度学习网站点点9个月前
0917
GPT-3:大语言模型的爆发-点头深度学习网站

GPT-3:大语言模型的爆发

引言 在科技界,GPT3的热潮正如火如荼地展开。这类庞大的语言模型(比如GPT3)开始以它们惊人的能力让我们惊叹。虽然现在对于大多数企业来说,将它们直接应用于面对客户的业务中还不够可靠,但...
点点的头像-点头深度学习网站点点8个月前
08715
自注意力机制(Self-Attention)-点头深度学习网站

自注意力机制(Self-Attention)

Transformer模型中最关键部分就是自注意力(Self-Attention)机制,正如 Transformer 的论文的标题是“Attention Is All You Need”!以文本问题为例来讲解这个机制。在处理文本问题时,自注意...
点点的头像-点头深度学习网站点点8个月前
06413
GPT-2:迈向先进语言模型的大步-点头深度学习网站

GPT-2:迈向先进语言模型的大步

2023年,我们见证了机器学习的一个耀眼应用——OpenAI的Chat GPT。这个模型不仅仅展现了写作连贯、充满激情的文章的能力,更超出了我们对当前语言模型能力的预期。Chat GPT虽然并非一个特别新颖...
点点的头像-点头深度学习网站点点8个月前
06110