3.1 Transformer 是什么

你不需要自己实现 Transformer，但理解它的设计思路，会让你对 AI 的行为有更深的直觉。

为什么叫"Transformer"

2017 年，Google 发布了一篇论文《Attention is All You Need》，提出了 Transformer 架构。这个名字来自它的核心操作：把输入"变换"成更有信息量的表示。

这个架构彻底改变了 AI 领域，之后的 GPT、Claude、Gemini 都是基于它的。

在 Transformer 之前，处理语言的模型（比如 RNN、LSTM，这是两种早期的神经网络结构，你不需要了解它们）是顺序处理的：先处理第一个词，再处理第二个，一个一个来。

这有两个大问题：

Transformer 的解决方案：让每个词同时"看到"所有其他词，而不是顺序处理。

想象你在翻译一个句子："The cat sat on the mat because it was tired."

当你处理"it"这个词时，你需要知道"it"指的是什么（是 cat 还是 mat？）。你的大脑会回头看整个句子，重点关注"cat"这个词，因为"tired"更可能是猫的状态。

Attention（注意力机制） 就是让 AI 做同样的事情：在处理每个词时，决定应该"关注"输入里的哪些部分。

处理 "it" 时：
  对 "The" 的关注度: 0.1
  对 "cat"  的关注度: 0.8  ← 高度关注
  对 "sat"  的关注度: 0.05
  对 "mat"  的关注度: 0.15
  ...

这些关注度就是"注意力权重"，它们决定了最终输出的含义。

现象：AI 对上下文开头和结尾更"记得住"

Attention 让每个位置的词都能看到所有其他位置，但在实践中，训练出来的模型对距离很远的内容的注意力会减弱。这就是"中间迷失"问题的根源。

现象：增加上下文长度不是免费的

Attention 的计算量随输入长度的平方增加。上下文从 100k 变成 200k，计算量变成 4 倍（不是 2 倍）。这就是长上下文模型为什么更贵、更慢。

现象：并行处理让训练很快

和 RNN 不同，Transformer 可以同时处理所有位置的词，在 GPU 上能高效并行计算。这让用海量数据训练大模型成为可能。

输入文字
  ↓
Token 化 + Embedding（变成数字）
  ↓
位置编码（告诉模型每个词在哪个位置）
  ↓
多层 Attention + 前馈网络
（每层让表示更丰富、更有信息量）
  ↓
输出层
（计算每个候选词出现的可能性，选一个输出）

"参数（Parameter）"就是这些层里的无数个数字，是训练出来的。一个大模型有几百亿到几千亿个参数。