Appearance
1.7 推理模型与思考模式
2025 年开始,AI 领域出现了一类新模型:推理模型(Reasoning Model),比如 OpenAI 的 o 系列、DeepSeek-R1、DeepSeek-V4 的思考模式、Claude 的 extended thinking。它们和你之前用的"普通模型"有本质区别。
普通模型 vs 推理模型
普通模型:你问,它立刻开始一个词一个词地往外蹦答案。
推理模型:你问,它先在"草稿纸"上反复推演——拆解问题、尝试、验证、纠错——想清楚了,再给你最终答案。
普通模型:
问题 → 直接输出答案
推理模型:
问题 → [一大段内部思考:先分析…再试…不对,换个思路…验证…]
→ 最终答案那段内部思考通常叫 思维过程 / thinking / reasoning tokens。有的模型会把它展示给你看,有的只给最终答案。
💡 类比:普通模型像抢答——脱口而出,简单题又快又对,难题容易翻车。推理模型像考试时先在草稿纸上演算再誊写答案——慢,但难题正确率高得多。
它为什么更强(也更贵)
推理模型的核心思想叫 Test-time Compute(推理时计算):在回答时多花算力去"想",换取更高的准确率。
过去提升 AI 能力主要靠把模型训练得更大;推理模型发现了另一条路——同一个模型,让它在回答时多想一会儿,难题表现就能大幅提升。
这条路是用强化学习训练出来的:让模型反复尝试解题,只奖励"最终答案对不对",模型自己摸索出了"先想再答"的习惯(DeepSeek-R1 用的 GRPO 方法就是这么做的)。
代价很直接:
- 慢:那段思考也是一个个 Token 生成的,可能比答案本身长好几倍
- 贵:思考的 Token 同样要计费,一次回答的成本可能是普通模型的好几倍
- 不一定更好:简单任务上,推理模型容易"想太多",又慢又没收益,甚至把简单问题搞复杂
什么时候用推理模型
✅ 该用:
- 多步骤数学、逻辑推理
- 复杂代码(算法、调试棘手 bug、架构设计)
- 需要严谨分步的分析任务
- 普通模型反复答错的难题
❌ 不该用(用普通模型就好):
- 简单问答、分类、改写、翻译
- 对延迟敏感的实时交互(聊天、补全)
- 大批量、低难度的处理任务(贵且慢)
⚠️ 常见误解:不是"推理模型一定更好,所以都用它"。它是把"算力"花在刀刃上的工具,用在简单任务上是纯浪费。默认用普通模型,遇到它搞不定的难题再上推理模型。
在代码里怎么用
很多模型把"思考"做成了同一模型的一个开关(混合推理模型,DeepSeek-V4 就是这样)。具体写法各家不同,常见两类:
javascript
// 方式一:用不同的模型名切换(DeepSeek 风格)
// deepseek-v4-flash 默认非思考模式;要思考模式调用对应的 reasoner 型号
const response = await client.chat.completions.create({
model: "deepseek-v4-flash",
messages: [{ role: "user", content: "一道复杂的算法题…" }]
})
// 方式二:用参数开启思考(部分模型/聚合平台支持 reasoning_effort)
const response = await client.chat.completions.create({
model: MODEL,
reasoning_effort: "high", // low / medium / high,思考越多越慢越贵
messages: [...]
})💡 思考过程(reasoning content)通常通过专门的字段返回(如
reasoning_content),和最终答案content分开。要不要展示给用户、要不要存下来,由你决定——它对调试很有用,但会增加成本和延迟。
🛠️ 实战练习:同一道难题,两种模型对比
找一道普通模型容易答错的题(比如多步骤逻辑题、或"一个数字序列的规律是什么"),分别用普通模型和推理模式跑:
javascript
const hardQuestion = "一个农夫要带狼、羊、白菜过河,船每次只能带一样……请给出完整步骤并验证每一步都安全。"
// 1. 普通模型
const fast = await client.chat.completions.create({
model: "deepseek-v4-flash",
messages: [{ role: "user", content: hardQuestion }]
})
// 2. 推理模式(换成你能用的推理型号 / 开 reasoning_effort)
// 观察:耗时、token 用量、答案正确率观察要点:
- 推理模式慢了多少?token(成本)多了多少?
- 答案正确率有没有提升?
- 换一道简单问题再跑,推理模式是不是反而"杀鸡用牛刀"?
进阶挑战:记录 10 道不同难度的题,统计"普通 vs 推理"的正确率和成本,找到对你的场景而言"值得上推理模型"的难度分界线。
📌 关键结论
- 推理模型先在"草稿纸"上想清楚再回答,靠 test-time compute(多花推理算力)换准确率
- 难题(数学、复杂代码、严谨推理)该用;简单任务和实时交互不要用,又慢又贵
- 默认用普通模型,搞不定再切推理模型——别无脑全用
- 思考过程也算 Token、也要计费,成本和延迟都明显高于普通模型
下一节:1.8 多模态:图像与文档输入