时序方向共12篇
GPT-3:大语言模型的爆发-点头深度学习网站

GPT-3:大语言模型的爆发

引言 在科技界,GPT3的热潮正如火如荼地展开。这类庞大的语言模型(比如GPT3)开始以它们惊人的能力让我们惊叹。虽然现在对于大多数企业来说,将它们直接应用于面对客户的业务中还不够可靠,但...
点点的头像-点头深度学习网站点点6个月前
06515
GPT-2:迈向先进语言模型的大步-点头深度学习网站

GPT-2:迈向先进语言模型的大步

2023年,我们见证了机器学习的一个耀眼应用——OpenAI的Chat GPT。这个模型不仅仅展现了写作连贯、充满激情的文章的能力,更超出了我们对当前语言模型能力的预期。Chat GPT虽然并非一个特别新颖...
点点的头像-点头深度学习网站点点6个月前
04210
 BERT, ELMo大语言模型详解-点头深度学习网站

 BERT, ELMo大语言模型详解

引言 2018年,对于处理文本的机器学习模型来说,可谓是一个转折点(更准确地说,是自然语言处理或简称NLP领域)。我们对于如何最佳地表示词语和句子,以捕捉其潜在的含义和关系的理解正在迅速发...
点点的头像-点头深度学习网站点点6个月前
08111
基于注意力机制的循环神经网络(Attention-Based RNN)-点头深度学习网站

基于注意力机制的循环神经网络(Attention-Based RNN)

算法原理 Attention-Based RNN 是一种基于注意力机制的 RNN 变体模型,它通过引入注意力机制来对序列中的不同部分进行加权,从而能够更好地捕捉序列数据中的重要信息。Attention-Based RNN...
点点的头像-点头深度学习网站点点6个月前
05514
长短期记忆网络(LSTM)和门控循环单元(GRU)算法详解-点头深度学习网站

长短期记忆网络(LSTM)和门控循环单元(GRU)算法详解

引言 传统循环神经网络在处理长序列时面临梯度消失或爆炸问题。梯度消失是指在训练过程中,误差反向传播时,梯度随着时间步数的增加而指数级衰减。梯度爆炸则正好相反,这会导致模型难以学习到...
点点的头像-点头深度学习网站点点6个月前
0539
自注意力机制(Self-Attention)-点头深度学习网站

自注意力机制(Self-Attention)

Transformer模型中最关键部分就是自注意力(Self-Attention)机制,正如 Transformer 的论文的标题是“Attention Is All You Need”!以文本问题为例来讲解这个机制。在处理文本问题时,自注意...
点点的头像-点头深度学习网站点点6个月前
05813
循环神经网络(RNN)算法详解-点头深度学习网站

循环神经网络(RNN)算法详解

引言 在第三章中,我们探讨了全连接神经网络(FCNN)和卷积神经网络(CNN)的结构,以及它们的训练方法和使用场景。值得注意的是,这两种网络结构都是处理独立的输入数据,即它们无法记忆或理解...
点点的头像-点头深度学习网站点点6个月前
0475
编码器-解码器模型(Encoder-Decoder)-点头深度学习网站

编码器-解码器模型(Encoder-Decoder)

编码器-解码器模型简介 Encoder-Decoder算法是一种深度学习模型结构,广泛应用于自然语言处理(NLP)、图像处理、语音识别等领域。它主要由两部分组成:编码器(Encoder)和解码器(Decoder)。...
点点的头像-点头深度学习网站点点6个月前
05612
Transformer算法详解-点头深度学习网站

Transformer算法详解

算法简介 Transformer架构于2017年6月推出。最初的研究重点是自然语言处理领域的翻译任务。随后,几个具有影响力的模型被引入,包括: (1)2018年6月:GPT,第一个预训练的Transformer模型,用...
点点的头像-点头深度学习网站点点7个月前
0526
Seq2Seq模型(Sequence to Sequence)-点头深度学习网站

Seq2Seq模型(Sequence to Sequence)

引言 Seq2Seq模型可以被认为是一种Encoder-Decoder模型的变体,其特别适用于处理序列到序列的任务,编码器将输入序列映射为一个固定长度的向量表示,解码器则使用这个向量表示来生成输出序列。...
点点的头像-点头深度学习网站点点7个月前
08215