09Reasoning 模式
L2P2
ReAct(Reasoning + Acting):模型在每步先写一段 thought,再决定 action。早期 agent 必备模式。
Chain-of-Thought (CoT):prompt 引导模型 "let's think step by step",对算术、逻辑题有效。
Reflection:做完一步让模型评估"对不对、要不要重做"。和 Three-Agent 的 Evaluator 一脉相承。
Plan-and-Execute:先 plan(模型列出步骤),再按计划逐步执行。适合长任务,但 plan 一旦错就全错。
Tree of Thoughts (ToT):多分支搜索 + 评分。学术意义大,工程上昂贵。
工程现实:Claude Sonnet 4+ / Opus 4+ 已经把 ReAct/CoT 内化到 extended thinking(内部 thinking block),你不用显式 prompt"think step by step"。Anthropic 的官方建议是直接让模型做事,需要时打开 thinking。
速查
"还需要写 ReAct prompt 吗?"——对 Claude 3.7+ 基本不用,模型自带。对小模型(Haiku 或 OSS)依然有效。