0.2 LLM 在做什么事

从你发一条消息开始

你向 Claude 发了一段话，比如"帮我写一个登录页面"。在你看到回复之前，发生了什么？

第一步：把你的话变成数字

AI 看不懂文字，只能处理数字。你的话首先被切成一个个小片段，叫做 Token（词元），每个 Token 对应一个数字编号。

"帮我写一个登录页面"
→ ["帮", "我", "写", "一个", "登录", "页面"]  （大概这样分）
→ [1823, 492, 7731, 256, 3847, 9012]  （每个对应一个数字）

💡 类比：就像电报里把文字转成莫尔斯码，AI 把文字转成它能处理的数字序列。

Token 是 AI 处理文字的最小单位，但它不等于一个字或一个单词。

为什么你需要理解 Token？

因为 AI 的很多限制都和 Token 直接相关：

⚠️ 常见误解：很多人以为"上下文 200k"是指 200k 个字。实际上是 200k 个 Token，中文大概是 10-15 万个汉字。

AI 每次处理对话，都有一个"工作内存"的上限，就是上下文窗口（Context Window）。

想象 AI 是一个人，正在处理你们的对话。但这个人有一个特殊限制：它只能看到桌面上的一叠纸，纸放满了，最早的就会滑落看不见。

[系统提示] + [历史对话] + [你的新消息] + [AI 的回复]
          ↑ 这些加起来不能超过上下文窗口的上限

这就是为什么：

理解了 Token，我们来看 AI 怎么生成回复。

它不是先想好整段话再打出来，而是一个 Token 一个 Token 地预测：

这个过程一直持续，直到生成了"结束"信号。

这就解释了为什么 AI 是流式输出的——因为它本来就是一个词一个词生成的，不是先有整段文字再传给你。

"幻觉"是指 AI 一本正经地说出错误的事实，比如编造一个不存在的论文引用、给出错误的代码。

原因就在于它的工作机制：它在预测"听起来最合理的下一个词"，而不是"最真实的下一个词"。

当你问一个它不确定的问题，它不会说"我不知道"，而是会生成"听起来最像答案的话"——因为那才是它训练出来的模式。

💡 类比：让一个从来没去过某个城市的人，给你描述那里的街道。他可能会结合其他城市的记忆，编出一段听起来很合理的描述，但具体细节可能是错的。