Appearance
0.2 LLM 在做什么事
从你发一条消息开始
你向 Claude 发了一段话,比如"帮我写一个登录页面"。在你看到回复之前,发生了什么?
第一步:把你的话变成数字
AI 看不懂文字,只能处理数字。你的话首先被切成一个个小片段,叫做 Token(词元),每个 Token 对应一个数字编号。
"帮我写一个登录页面"
→ ["帮", "我", "写", "一个", "登录", "页面"] (大概这样分)
→ [1823, 492, 7731, 256, 3847, 9012] (每个对应一个数字)💡 类比:就像电报里把文字转成莫尔斯码,AI 把文字转成它能处理的数字序列。
什么是 Token
Token 是 AI 处理文字的最小单位,但它不等于一个字或一个单词。
- 英文里,一个单词可能是一个 Token,也可能被切成几个 Token
- 中文里,每个汉字大概是 1-2 个 Token
- 标点符号、空格也是 Token
为什么你需要理解 Token?
因为 AI 的很多限制都和 Token 直接相关:
- 上下文窗口(Context Window) 就是以 Token 数量计算的
- 费用 是按 Token 数量计费的
- 响应速度 取决于生成了多少 Token
⚠️ 常见误解:很多人以为"上下文 200k"是指 200k 个字。实际上是 200k 个 Token,中文大概是 10-15 万个汉字。
什么是上下文窗口
AI 每次处理对话,都有一个"工作内存"的上限,就是上下文窗口(Context Window)。
想象 AI 是一个人,正在处理你们的对话。但这个人有一个特殊限制:它只能看到桌面上的一叠纸,纸放满了,最早的就会滑落看不见。
[系统提示] + [历史对话] + [你的新消息] + [AI 的回复]
↑ 这些加起来不能超过上下文窗口的上限这就是为什么:
- 对话太长之后,AI 会"忘记"前面说过的事
- 给 AI 塞入太多文件,它处理质量会下降
- Agent 执行复杂任务时,上下文爆满是一个常见的失控原因
AI 怎么生成回复
理解了 Token,我们来看 AI 怎么生成回复。
它不是先想好整段话再打出来,而是一个 Token 一个 Token 地预测:
- 看当前所有内容(你的消息 + 历史对话)
- 计算"下一个 Token 最可能是哪个词"(列出所有候选词,每个词分配一个可能性分数)
- 根据概率选一个 Token
- 把这个 Token 加入内容,重复第 1 步
这个过程一直持续,直到生成了"结束"信号。
这就解释了为什么 AI 是流式输出的——因为它本来就是一个词一个词生成的,不是先有整段文字再传给你。
为什么 AI 会"幻觉"
"幻觉"是指 AI 一本正经地说出错误的事实,比如编造一个不存在的论文引用、给出错误的代码。
原因就在于它的工作机制:它在预测"听起来最合理的下一个词",而不是"最真实的下一个词"。
当你问一个它不确定的问题,它不会说"我不知道",而是会生成"听起来最像答案的话"——因为那才是它训练出来的模式。
💡 类比:让一个从来没去过某个城市的人,给你描述那里的街道。他可能会结合其他城市的记忆,编出一段听起来很合理的描述,但具体细节可能是错的。
📌 关键结论
- AI 把文字切成 Token 处理,Token 数量决定了费用和上下文限制
- 上下文窗口是 AI 的"工作内存",超出了就会"忘事"
- AI 是一个 Token 一个 Token 流式生成的,不是先想好再说
- 幻觉的根本原因是"预测合理内容"而不是"确认真实内容"