核心章 · 七日精读

把 32 个知识点里的 16 个 P0 章节按依赖关系排成 7 天学习路径。每天 2-3 章,跟着读 + 做练习,7 天后能讲清 harness 工程的所有核心决策。

总长度 ~32K 字 · 平均每日 ~4.5K 字 + 6 道练习 · 完成需 ~10-15 小时投入

Day 1底层基础2 章 Day 2Agent 核心2 章 Day 3Harness 边界2 章 Day 4生产护栏2 章 Day 5Context 框架3 章 Day 6长任务架构3 章 Day 7协同与收尾2 章

所有上层 agent 工程的物理基础。不懂 KV Cache,后面 Prompt Caching 的"省 90%"是抄公式;不懂 Prompt Caching,生产 agent 的账单永远是五位数。这一天解决"为什么 context 是稀缺资源"。

02KV Cache 原理L1

Transformer 推理时 K/V 缓存怎么让 O(N²) 降到 O(N)。Llama 70B 1 万 token 占 26GB 显存的物理算账。是后面所有"省 token"工程的基础。

03Prompt CachingL1

Anthropic 5min/1hr 两档 TTL、命中 10%、写入 1.25/2.0×。cache 边界连续性规则。改 tool 描述为什么让 messages 全失效。

今日学习目标

能向同事讲清"为什么 prompt caching 能省 90%"——从 K/V 不重算的物理层讲到 cache 命中率公式
看到 cache 命中率 30% 能给出 3 个排查方向
能算清 system 12K + tools 4K + messages 3K 的 agent 开 cache 后的月成本下降

融合自检

如果你团队的 system prompt 平均 8K token 但低于 1024 也有,日活 5000,你会建议怎么用 prompt caching?为什么有一部分用户的 prompt 不应该开 cache?

Agent 的本质就是一个循环 + 工具调用协议。所有 framework / runtime / harness 都是在优化这两件事。掌握这一天,你能从 0 写出能跑的 agent;不掌握,你只能"用 SDK"。

06Agent LoopL2

think → tool_call → observe → repeat 的完整工程实现。6 层终止条件(end_turn / max_steps / max_tokens / 死循环 / 用户中断 / 致命错误)。50 行参考实现。

07Tool Use 协议L2

tool 定义 / tool_use / tool_result 三对象。4 种 tool_choice 策略。is_error 显式 vs 静默 fail 的灾难性差异。30+ tool 导致的选择疲劳。

今日学习目标

用 Anthropic SDK 50 行内写出 minimal agent loop,带 max_steps + 死循环检测
区分 tool_choice 的 auto / any / tool=X / none 各自适用场景
解释为什么 tool 错误必须显式 is_error,不能 silent fail

融合自检

agent 跑了 30 步还没结束——你按什么顺序排查?如果发现是同 tool 同参数反复调,harness 层和 prompt 层各应做什么?

"我做的是哪一类系统"是这个领域的术语关。Framework / Runtime / Harness / Platform 是四个抽象层,代表完全不同的所有权和工作深度。这一天给出精确边界,让你能清晰定位自己的工作在哪一层。

11Harness 概念边界L3

Framework / Runtime / Harness / Platform 四个抽象层的所有权对比表。5 个常见混淆 case(AutoGen / LangGraph / Agent SDK / hook extension / fork own loop)对号入座。

16Agent SDKL3

Client SDK / Agent SDK / 自造 harness 三层对比。Agent SDK 替你 own 了 loop——什么时候够用、什么时候必须往下沉造 harness。

今日学习目标

30 秒内说清 Framework / Runtime / Harness / Platform 各 own 什么
正确归类 LangChain / LangGraph / Claude Code / Bedrock / Anthropic Agent SDK 五个产品
说出"用 Agent SDK 造项目 ≠ harness 工程"的本质原因

融合自检

老板说"用 Anthropic Agent SDK 三天搭一个 customer support agent"——什么场景下你应该拒绝这个方案、坚持自造 harness?给出 2-3 个判断条件。

demo 跑通和上生产之间隔着这两章。失败模式分类是事故复盘的共同语言,Prompt Injection 防御是合规上线的最低门槛。两件事都做好,你的 agent 不会因为读了一封邮件就删库。

28失败模式分类L3

6 大失败模式:tool hallucination、infinite loop、failed call 静默、OOM/Timeout、over-confidence、cascading failure。真实事故 trace 拆解叠加诊断方法。

29Prompt Injection 防御L3

Direct vs Indirect injection 区别。6 种攻击向量(白色文字 / HTML 注释 / Unicode 不可见字符 / 多语言混杂等)。4 层防御(输入隔离 / 来源标记 / 执行门控 / 输出过滤)。

今日学习目标

看到 agent 出问题的 trace,拆出至少 2 种失败模式叠加,按 P0/P1/P2 排修复优先级
区分 direct 和 indirect prompt injection,说出后者为什么危害更大
列出 4 层防御策略 + 各自在哪一层做(harness / tool / permission / output)

融合自检

"agent 帮我清理日志,把 prod log 删了"——这个事故里你能识别出至少 3 种 #28 失败模式叠加吗?如果让你设计防止再次发生的机制,#28 和 #29 各贡献什么?

L4 的概念底盘。Anthropic 官方 3 支柱是 context 工程的标准答案;4 类 Memory 是"记不住"问题的精确分类;MCP 是 agent 生态的 USB-C 接口。这一天打通 L4 的所有底层词汇。

20Context Engineering 3 支柱L4

Anthropic 2025-09 官方 3 支柱:Compaction / Note-taking / Multi-agent。不是 4 支柱(JIT Retrieval 是误传)。三者在一次会话怎么组合用。

24Memory 4 类L4

In-context / External / Episodic / Semantic 四类对照表。各自实现路径。Cursor 真实 memory 流程拆解。"加 memory" 是含糊需求的回问三件套。

25MCP 协议L4

Host / Client / Server 三角架构。Tools(model-controlled)/ Resources(application-controlled)/ Prompts(user-controlled)三原语 + 控制者维度。stdio vs SSE 传输。

今日学习目标

背出 Context Eng 3 支柱并解释为什么 JIT Retrieval 不算第 4 支柱
听到"agent 记不住 X",立刻能拆出对应的 memory 类型
看一个能力描述,正确归类到 MCP 三原语之一

融合自检

设计一个 personal coding assistant 的完整 context 策略:3 支柱怎么分工、4 类 memory 各自存什么、外部能力哪些做成 MCP server。这三章的概念怎么组合成一套完整方案?

这一天是 harness 工程的真正前沿——做出 Claude Code / Cursor / Devin 级别产品所必需的架构。Long-Running 解决"任务跨多天",Three-Agent 解决"输出可信",Compaction vs Reset 解决"context 不够"。三件事缺一不可。

17Long-Running AgentL3

双 agent 架构(Initializer + Coding agent)。progress.md 的"班次交接表"四字段。Sonnet 4.5 context anxiety 案例。共享文档作为 cross-session memory。

21Compaction vs ResetL4

Anthropic 2025-11 关键判断:"summarization-as-compaction is insufficient"。Compaction 信息漂移 vs Reset 干净。两种机制的决策树和组合使用。

18Three-Agent HarnessL3

Planner / Generator / Evaluator 三 agent 对抗架构(GAN 启发)。Default-FAIL Evaluator + Fresh-Context Evaluator 两大设计。Claude Code /goal 命令的工作流。

今日学习目标

画出 Long-Running 双 agent 架构的数据流,列出 progress.md 4 字段
用 Anthropic 原文那句关键判断说明 Compaction 在长任务上为何不够
区分 Three-Agent 和 Multi-Agent 的本质(对抗式 vs 协作式)

融合自检

用户要 agent 重构 5 万行 Django 项目(跨 3 天)。这一天三章的概念怎么组合落地——Long-Running 的双 agent 架构里,Three-Agent 怎么嵌入做对抗验证?Compaction 和 Reset 在 session 内/跨 session 各扮演什么角色?

前 6 天讲的是"造 harness",这一天讲"harness 怎么和模型一起活下去"。#27 是哲学层 P0,#32 是 harness 工程师区别于"普通 agent 开发者"的核心价值点。讲清这两章,你就理解了为什么 Anthropic 招的是"造产品本身的人"。

27模型协同演进L4

Sonnet 4.5 → Opus 4.5 context anxiety 案例。三条设计原则:机制开关化 / 优雅退化 / 不假定模型能力上限。模型升级 SOP 工作流。

32Harness→Model 反馈闭环L4

4 条回流路径:成功 trace → SFT、失败 → RLHF preference pair、edge case → eval set、failure taxonomy → 训练 priority。契约式交付样例。

今日学习目标

完整讲出 Sonnet 4.5 → Opus 4.5 的 context anxiety 案例,以及 harness 团队怎么处理升级
列出 4 条 harness → model 反馈路径 + 各自数据源
设计契约式交付的具体内容(每 sprint / 每月 / 每版本 / 季度各交付什么)

融合自检

你 own 一个 harness,模型每 6 个月升级一代。设计完整工程流程:升级前的 candidate 评估 → 升级时的 A/B 灰度 → 升级后的反馈交付。这一流程怎么把 #27 协同演进和 #32 反馈闭环结合成可重复的 SOP?

七日之后

跑完这套路径,你应该能回答这些问题——不是"听过",是"能讲清"。

为什么 prompt caching 在生产 agent 上是成本量级切换,不是优化
"我做的是哪一类系统"——能在 30 秒内归类到 Framework / Runtime / Harness / Platform 之一
agent 卡死最常见的原因是什么,harness 应该怎么硬中断而不只靠 prompt
读到一个 readme 里写了"rm -rf /",harness 应该怎么响应
"Context 不够用",怎么按场景选 Compaction / Note-taking / Multi-agent / Reset
"加 memory" 这个产品需求,你的回问三件套是什么
MCP 三原语的控制者区别,以及把一个功能放在哪个原语下取决于什么
你的 harness 半年后还能跑吗——怎么用 feature flag 让它能演化
"你怎么帮训练团队提升模型"——给出 4 件具体的事

能讲清这 9 个,你掌握了 harness 工程的核心决策框架。如果有哪一题卡住,回到对应章节深读那一节的"工程权衡"和"自检清单"。

下一步:不强求一周读完——P0 学完后,P1/P2 章节(剩下 16 个)按需要查就好。教程的真正用途是把"知识地图"变成"判断力",这个过程更像反复回看,不像考试一次过。

核心章 · 七日精读

底层基础:为什么 cache 能省钱

Agent 核心:loop + tool

Harness 边界:概念 + SDK 关系

生产护栏:失败模式 + 注入防御

Context 框架:3 支柱 + Memory + MCP

长任务架构:跨 session + 对抗 + Reset

协同与收尾:harness 与模型共同进化

七日之后