#09 Reasoning 模式 · Agent Harness 工程师知识地图

09Reasoning 模式

L2P2

ReAct(Reasoning + Acting):模型在每步先写一段 thought,再决定 action。早期 agent 必备模式。

Chain-of-Thought (CoT):prompt 引导模型 "let's think step by step",对算术、逻辑题有效。

Reflection:做完一步让模型评估"对不对、要不要重做"。和 Three-Agent 的 Evaluator 一脉相承。

Plan-and-Execute:先 plan(模型列出步骤),再按计划逐步执行。适合长任务,但 plan 一旦错就全错。

Tree of Thoughts (ToT):多分支搜索 + 评分。学术意义大,工程上昂贵。

工程现实:Claude Sonnet 4+ / Opus 4+ 已经把 ReAct/CoT 内化到 extended thinking(内部 thinking block),你不用显式 prompt"think step by step"。Anthropic 的官方建议是直接让模型做事,需要时打开 thinking。

速查

"还需要写 ReAct prompt 吗?"——对 Claude 3.7+ 基本不用,模型自带。对小模型(Haiku 或 OSS)依然有效。