Skip to content

3.3 模型是怎么训练出来的

你不需要自己训练模型,但了解训练过程,能帮助你理解模型的能力边界和行为来源。

三个阶段

现代 LLM 的训练通常分三个阶段:


阶段一:Pre-training(预训练)

在做什么: 用海量文本数据训练模型,让它学会"预测下一个词"。

数据规模: 互联网上的文字、书籍、代码,几万亿个 Token。

训练时间: 几个月,消耗数千块 GPU。

训练完的模型叫: Base Model(基础模型)

💡 类比:就像一个人从出生到成年,读了所有能读到的书、文章、对话,形成了对语言和世界的基础理解。

这个阶段结束后,模型已经有了强大的语言能力,但还不"听话"——给它一个问题,它可能会继续补全这个问题,而不是回答它。


阶段二:SFT(Supervised Fine-Tuning,监督微调)

在做什么: 用"问题-好回答"的配对数据,教模型怎么有帮助地响应指令。

数据形式:

[用户]: 帮我解释什么是光合作用
[助手]: 光合作用是植物利用阳光...(人工写的好回答)

训练完的模型叫: Instruct Model(指令模型)

经过 SFT 后,模型开始能够按照指令回答问题,但回答质量还不够稳定,有时会产生有害内容。


阶段三:RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)

在做什么: 让模型的回答更符合人类偏好——更有帮助、更安全、更诚实。

流程:

1. 让模型对同一个问题生成多个不同回答
2. 人工标注者排列这些回答(哪个更好)
3. 训练一个"评分模型",学习什么是好回答
4. 用评分模型指导 LLM 的训练,让它产生更高分的回答

这就是为什么 Claude 和 ChatGPT 不是"纯粹的预测机器",而是"有价值观的助手"——那些价值观来自于 RLHF 阶段人类标注者的偏好。

DPO(Direct Preference Optimization) 是 RLHF 的一种替代方法,更简单、稳定,现在很多模型在用。


新阶段:推理训练(Reasoning)

2025 年起多了一类训练,专门教模型"先想清楚再回答",产出的就是 1.7 节 讲的推理模型

和 RLHF"对齐人类偏好"不同,推理训练的奖励信号往往很简单粗暴:最终答案对不对(数学题答案、代码能不能跑通)。

让模型对一道题反复生成不同的"思考过程 + 答案"

只看最终答案对不对来打分(对了奖励,错了惩罚)

模型自己摸索出"先拆解、再尝试、自我验证、纠错"的习惯

DeepSeek-R1 用的 GRPO 就是这类强化学习方法。神奇之处在于:没人教模型"该怎么想",它在"只奖励正确答案"的压力下,自己长出了推理能力

这也解释了 1.7 节 的现象——推理模型靠"在回答时多花算力思考"(test-time compute)换准确率,所以又慢又贵,但难题更强。


为什么 AI 会有"性格"

你有没有注意到:Claude 喜欢说"当然!",GPT 会说"当然,我很乐意帮助...",不同模型有不同的说话风格?

这些来自 SFT 阶段的训练数据风格,以及 RLHF 阶段标注者的偏好。

Anthropic 用了一种叫 Constitutional AI(宪法式 AI) 的方法来训练 Claude——顾名思义,就像给 AI 制定一部"宪法":先写下一系列原则(诚实、有帮助、无害等),再用这些原则让 AI 自己评判自己的回答好不好,而不完全依赖人工标注。

这就是为什么 Claude 和 GPT 感觉"性格不一样":两者的 RLHF 数据和价值取向不同,GPT 更倾向于取悦用户,Claude 更倾向于诚实和直接。


参数量和能力的关系

参数规模代表特点
1B - 7BLlama 3.1 8B, Phi-3轻量,可本地运行,基础任务够用
13B - 70BLlama 3.1 70B较强,能处理复杂任务
100B+GPT-4, Claude 3 Opus最强,但需要大量 GPU

更多参数 ≠ 一定更好,但在同等架构和数据质量下,更多参数通常意味着更强的能力。

Quantization(量化) 是用更少的比特来存储参数(比如从 32 位浮点数压缩到 4 位),让大模型能在消费级硬件上运行,代价是精度略有损失。


MoE(Mixture of Experts,混合专家)

传统模型每次处理输入都激活全部参数。MoE 的思路是:有很多个"专家"子网络,每次只激活其中几个最相关的。

模型总参数:1000B
每次实际激活:约 50B(激活其中 5% 的专家)

效果:用 50B 的计算量,获得 1000B 模型的能力

GPT-4 和 Mixtral 据说使用了 MoE 架构。这就是为什么有些模型"声称参数很大但速度不慢"。


📌 关键结论

  1. 训练分三阶段:预训练(学语言) → SFT(学听话) → RLHF(学价值观)
  2. AI 的"性格"和"价值观"来自 SFT 数据和 RLHF 标注者偏好
  3. 更多参数通常意味着更强能力,但不是绝对的
  4. MoE 让大模型能以较低计算量运行

下一节:3.4 Fine-tuning vs RAG

写给自己的 AI 学习地图