01LLM 推理机制
L1P1
LLM 不是看字符,是看 token。中文一个汉字约 1.5~2.5 token,英文一个常用词约 1 token。模型生成是自回归的:每生成一个 token,都要把之前所有 token 重新跑一遍 attention,所以 context 长度对推理成本是平方级影响(在没有 KV cache 的情况下)。
采样参数控制随机性:temperature(0 最稳定,>1 越发散)、top_p(累积概率截断,常用 0.9~1.0)、top_k(只从概率最高的 k 个里采)。生产 agent 一般用 temperature=0~0.3 求稳定。
Context window 是稀缺资源,不只因为"放不下",更因为:模型在长 context 上 attention 会衰减(needle-in-haystack 准确率下降),且每 token 的推理算力线性增长。所以"塞进 context"不等于"被模型用上"。
速查
"为什么 context 不能无限大?"——KV cache 内存增长、long-context attention 退化、训练数据稀疏(长样本少),三个原因叠加。