Skip to content

3.1 Transformer 是什么

你不需要自己实现 Transformer,但理解它的设计思路,会让你对 AI 的行为有更深的直觉。

为什么叫"Transformer"

2017 年,Google 发布了一篇论文《Attention is All You Need》,提出了 Transformer 架构。这个名字来自它的核心操作:把输入"变换"成更有信息量的表示

这个架构彻底改变了 AI 领域,之后的 GPT、Claude、Gemini 都是基于它的。


它解决了什么问题

在 Transformer 之前,处理语言的模型(比如 RNN、LSTM,这是两种早期的神经网络结构,你不需要了解它们)是顺序处理的:先处理第一个词,再处理第二个,一个一个来。

这有两个大问题:

  1. 速度慢:不能并行处理
  2. 长距离遗忘:处理到第 100 个词时,第 1 个词的信息已经很淡了

Transformer 的解决方案:让每个词同时"看到"所有其他词,而不是顺序处理。


核心思路:注意力机制

想象你在翻译一个句子:"The cat sat on the mat because it was tired."

当你处理"it"这个词时,你需要知道"it"指的是什么(是 cat 还是 mat?)。你的大脑会回头看整个句子,重点关注"cat"这个词,因为"tired"更可能是猫的状态。

Attention(注意力机制) 就是让 AI 做同样的事情:在处理每个词时,决定应该"关注"输入里的哪些部分。

处理 "it" 时:
  对 "The" 的关注度: 0.1
  对 "cat"  的关注度: 0.8  ← 高度关注
  对 "sat"  的关注度: 0.05
  对 "mat"  的关注度: 0.15
  ...

这些关注度就是"注意力权重",它们决定了最终输出的含义。


为什么这解释了很多现象

现象:AI 对上下文开头和结尾更"记得住"

Attention 让每个位置的词都能看到所有其他位置,但在实践中,训练出来的模型对距离很远的内容的注意力会减弱。这就是"中间迷失"问题的根源。

现象:增加上下文长度不是免费的

Attention 的计算量随输入长度的平方增加。上下文从 100k 变成 200k,计算量变成 4 倍(不是 2 倍)。这就是长上下文模型为什么更贵、更慢。

现象:并行处理让训练很快

和 RNN 不同,Transformer 可以同时处理所有位置的词,在 GPU 上能高效并行计算。这让用海量数据训练大模型成为可能。


Transformer 的结构(简化版)

输入文字

Token 化 + Embedding(变成数字)

位置编码(告诉模型每个词在哪个位置)

多层 Attention + 前馈网络
(每层让表示更丰富、更有信息量)

输出层
(计算每个候选词出现的可能性,选一个输出)

"参数(Parameter)"就是这些层里的无数个数字,是训练出来的。一个大模型有几百亿到几千亿个参数。


📌 关键结论

  1. Transformer 让每个词能同时"关注"输入里的所有词,解决了顺序处理的问题
  2. Attention 机制是核心,它决定"处理这个词时应该重点看哪里"
  3. 上下文越长,计算量按平方增加——这解释了为什么长上下文模型更贵
  4. 所有主流大模型(Claude、GPT、Gemini)都基于 Transformer

下一节:3.2 Attention 机制的直觉

写给自己的 AI 学习地图