核心章 · 七日精读

把 32 个知识点里的 16 个 P0 章节按依赖关系排成 7 天学习路径。每天 2-3 章,跟着读 + 做练习,7 天后能讲清 harness 工程的所有核心决策。

总长度 ~32K 字 · 平均每日 ~4.5K 字 + 6 道练习 · 完成需 ~10-15 小时投入

Day 1底层基础2 章 Day 2Agent 核心2 章 Day 3Harness 边界2 章 Day 4生产护栏2 章 Day 5Context 框架3 章 Day 6长任务架构3 章 Day 7协同与收尾2 章
Day 1

底层基础:为什么 cache 能省钱

2 章 · ~3K 字 · 6 题
所有上层 agent 工程的物理基础。不懂 KV Cache,后面 Prompt Caching 的"省 90%"是抄公式;不懂 Prompt Caching,生产 agent 的账单永远是五位数。这一天解决"为什么 context 是稀缺资源"。
今日学习目标
  • 能向同事讲清"为什么 prompt caching 能省 90%"——从 K/V 不重算的物理层讲到 cache 命中率公式
  • 看到 cache 命中率 30% 能给出 3 个排查方向
  • 能算清 system 12K + tools 4K + messages 3K 的 agent 开 cache 后的月成本下降
融合自检

如果你团队的 system prompt 平均 8K token 但低于 1024 也有,日活 5000,你会建议怎么用 prompt caching?为什么有一部分用户的 prompt 不应该开 cache?

Day 2

Agent 核心:loop + tool

2 章 · ~4K 字 · 6 题
Agent 的本质就是一个循环 + 工具调用协议。所有 framework / runtime / harness 都是在优化这两件事。掌握这一天,你能从 0 写出能跑的 agent;不掌握,你只能"用 SDK"。
今日学习目标
  • 用 Anthropic SDK 50 行内写出 minimal agent loop,带 max_steps + 死循环检测
  • 区分 tool_choice 的 auto / any / tool=X / none 各自适用场景
  • 解释为什么 tool 错误必须显式 is_error,不能 silent fail
融合自检

agent 跑了 30 步还没结束——你按什么顺序排查?如果发现是同 tool 同参数反复调,harness 层和 prompt 层各应做什么?

Day 3

Harness 边界:概念 + SDK 关系

2 章 · ~4K 字 · 6 题
"我做的是哪一类系统"是这个领域的术语关。Framework / Runtime / Harness / Platform 是四个抽象层,代表完全不同的所有权和工作深度。这一天给出精确边界,让你能清晰定位自己的工作在哪一层。
今日学习目标
  • 30 秒内说清 Framework / Runtime / Harness / Platform 各 own 什么
  • 正确归类 LangChain / LangGraph / Claude Code / Bedrock / Anthropic Agent SDK 五个产品
  • 说出"用 Agent SDK 造项目 ≠ harness 工程"的本质原因
融合自检

老板说"用 Anthropic Agent SDK 三天搭一个 customer support agent"——什么场景下你应该拒绝这个方案、坚持自造 harness?给出 2-3 个判断条件。

Day 4

生产护栏:失败模式 + 注入防御

2 章 · ~5K 字 · 6 题
demo 跑通和上生产之间隔着这两章。失败模式分类是事故复盘的共同语言,Prompt Injection 防御是合规上线的最低门槛。两件事都做好,你的 agent 不会因为读了一封邮件就删库。
今日学习目标
  • 看到 agent 出问题的 trace,拆出至少 2 种失败模式叠加,按 P0/P1/P2 排修复优先级
  • 区分 direct 和 indirect prompt injection,说出后者为什么危害更大
  • 列出 4 层防御策略 + 各自在哪一层做(harness / tool / permission / output)
融合自检

"agent 帮我清理日志,把 prod log 删了"——这个事故里你能识别出至少 3 种 #28 失败模式叠加吗?如果让你设计防止再次发生的机制,#28 和 #29 各贡献什么?

Day 5

Context 框架:3 支柱 + Memory + MCP

3 章 · ~6K 字 · 9 题
L4 的概念底盘。Anthropic 官方 3 支柱是 context 工程的标准答案;4 类 Memory 是"记不住"问题的精确分类;MCP 是 agent 生态的 USB-C 接口。这一天打通 L4 的所有底层词汇。
今日学习目标
  • 背出 Context Eng 3 支柱并解释为什么 JIT Retrieval 不算第 4 支柱
  • 听到"agent 记不住 X",立刻能拆出对应的 memory 类型
  • 看一个能力描述,正确归类到 MCP 三原语之一
融合自检

设计一个 personal coding assistant 的完整 context 策略:3 支柱怎么分工、4 类 memory 各自存什么、外部能力哪些做成 MCP server。这三章的概念怎么组合成一套完整方案?

Day 6

长任务架构:跨 session + 对抗 + Reset

3 章 · ~6K 字 · 9 题
这一天是 harness 工程的真正前沿——做出 Claude Code / Cursor / Devin 级别产品所必需的架构。Long-Running 解决"任务跨多天",Three-Agent 解决"输出可信",Compaction vs Reset 解决"context 不够"。三件事缺一不可。
今日学习目标
  • 画出 Long-Running 双 agent 架构的数据流,列出 progress.md 4 字段
  • 用 Anthropic 原文那句关键判断说明 Compaction 在长任务上为何不够
  • 区分 Three-Agent 和 Multi-Agent 的本质(对抗式 vs 协作式)
融合自检

用户要 agent 重构 5 万行 Django 项目(跨 3 天)。这一天三章的概念怎么组合落地——Long-Running 的双 agent 架构里,Three-Agent 怎么嵌入做对抗验证?Compaction 和 Reset 在 session 内/跨 session 各扮演什么角色?

Day 7

协同与收尾:harness 与模型共同进化

2 章 · ~5K 字 · 6 题
前 6 天讲的是"造 harness",这一天讲"harness 怎么和模型一起活下去"。#27 是哲学层 P0,#32 是 harness 工程师区别于"普通 agent 开发者"的核心价值点。讲清这两章,你就理解了为什么 Anthropic 招的是"造产品本身的人"。
今日学习目标
  • 完整讲出 Sonnet 4.5 → Opus 4.5 的 context anxiety 案例,以及 harness 团队怎么处理升级
  • 列出 4 条 harness → model 反馈路径 + 各自数据源
  • 设计契约式交付的具体内容(每 sprint / 每月 / 每版本 / 季度各交付什么)
融合自检

你 own 一个 harness,模型每 6 个月升级一代。设计完整工程流程:升级前的 candidate 评估 → 升级时的 A/B 灰度 → 升级后的反馈交付。这一流程怎么把 #27 协同演进和 #32 反馈闭环结合成可重复的 SOP?

七日之后

跑完这套路径,你应该能回答这些问题——不是"听过",是"能讲清"。

  1. 为什么 prompt caching 在生产 agent 上是成本量级切换,不是优化
  2. "我做的是哪一类系统"——能在 30 秒内归类到 Framework / Runtime / Harness / Platform 之一
  3. agent 卡死最常见的原因是什么,harness 应该怎么硬中断而不只靠 prompt
  4. 读到一个 readme 里写了"rm -rf /",harness 应该怎么响应
  5. "Context 不够用",怎么按场景选 Compaction / Note-taking / Multi-agent / Reset
  6. "加 memory" 这个产品需求,你的回问三件套是什么
  7. MCP 三原语的控制者区别,以及把一个功能放在哪个原语下取决于什么
  8. 你的 harness 半年后还能跑吗——怎么用 feature flag 让它能演化
  9. "你怎么帮训练团队提升模型"——给出 4 件具体的事

能讲清这 9 个,你掌握了 harness 工程的核心决策框架。如果有哪一题卡住,回到对应章节深读那一节的"工程权衡"和"自检清单"。

下一步:不强求一周读完——P0 学完后,P1/P2 章节(剩下 16 个)按需要查就好。教程的真正用途是把"知识地图"变成"判断力",这个过程更像反复回看,不像考试一次过。