把 32 个知识点里的 16 个 P0 章节按依赖关系排成 7 天学习路径。每天 2-3 章,跟着读 + 做练习,7 天后能讲清 harness 工程的所有核心决策。
Transformer 推理时 K/V 缓存怎么让 O(N²) 降到 O(N)。Llama 70B 1 万 token 占 26GB 显存的物理算账。是后面所有"省 token"工程的基础。
Anthropic 5min/1hr 两档 TTL、命中 10%、写入 1.25/2.0×。cache 边界连续性规则。改 tool 描述为什么让 messages 全失效。
如果你团队的 system prompt 平均 8K token 但低于 1024 也有,日活 5000,你会建议怎么用 prompt caching?为什么有一部分用户的 prompt 不应该开 cache?
think → tool_call → observe → repeat 的完整工程实现。6 层终止条件(end_turn / max_steps / max_tokens / 死循环 / 用户中断 / 致命错误)。50 行参考实现。
tool 定义 / tool_use / tool_result 三对象。4 种 tool_choice 策略。is_error 显式 vs 静默 fail 的灾难性差异。30+ tool 导致的选择疲劳。
agent 跑了 30 步还没结束——你按什么顺序排查?如果发现是同 tool 同参数反复调,harness 层和 prompt 层各应做什么?
Framework / Runtime / Harness / Platform 四个抽象层的所有权对比表。5 个常见混淆 case(AutoGen / LangGraph / Agent SDK / hook extension / fork own loop)对号入座。
Client SDK / Agent SDK / 自造 harness 三层对比。Agent SDK 替你 own 了 loop——什么时候够用、什么时候必须往下沉造 harness。
老板说"用 Anthropic Agent SDK 三天搭一个 customer support agent"——什么场景下你应该拒绝这个方案、坚持自造 harness?给出 2-3 个判断条件。
6 大失败模式:tool hallucination、infinite loop、failed call 静默、OOM/Timeout、over-confidence、cascading failure。真实事故 trace 拆解叠加诊断方法。
Direct vs Indirect injection 区别。6 种攻击向量(白色文字 / HTML 注释 / Unicode 不可见字符 / 多语言混杂等)。4 层防御(输入隔离 / 来源标记 / 执行门控 / 输出过滤)。
"agent 帮我清理日志,把 prod log 删了"——这个事故里你能识别出至少 3 种 #28 失败模式叠加吗?如果让你设计防止再次发生的机制,#28 和 #29 各贡献什么?
Anthropic 2025-09 官方 3 支柱:Compaction / Note-taking / Multi-agent。不是 4 支柱(JIT Retrieval 是误传)。三者在一次会话怎么组合用。
In-context / External / Episodic / Semantic 四类对照表。各自实现路径。Cursor 真实 memory 流程拆解。"加 memory" 是含糊需求的回问三件套。
Host / Client / Server 三角架构。Tools(model-controlled)/ Resources(application-controlled)/ Prompts(user-controlled)三原语 + 控制者维度。stdio vs SSE 传输。
设计一个 personal coding assistant 的完整 context 策略:3 支柱怎么分工、4 类 memory 各自存什么、外部能力哪些做成 MCP server。这三章的概念怎么组合成一套完整方案?
双 agent 架构(Initializer + Coding agent)。progress.md 的"班次交接表"四字段。Sonnet 4.5 context anxiety 案例。共享文档作为 cross-session memory。
Anthropic 2025-11 关键判断:"summarization-as-compaction is insufficient"。Compaction 信息漂移 vs Reset 干净。两种机制的决策树和组合使用。
Planner / Generator / Evaluator 三 agent 对抗架构(GAN 启发)。Default-FAIL Evaluator + Fresh-Context Evaluator 两大设计。Claude Code /goal 命令的工作流。
用户要 agent 重构 5 万行 Django 项目(跨 3 天)。这一天三章的概念怎么组合落地——Long-Running 的双 agent 架构里,Three-Agent 怎么嵌入做对抗验证?Compaction 和 Reset 在 session 内/跨 session 各扮演什么角色?
Sonnet 4.5 → Opus 4.5 context anxiety 案例。三条设计原则:机制开关化 / 优雅退化 / 不假定模型能力上限。模型升级 SOP 工作流。
4 条回流路径:成功 trace → SFT、失败 → RLHF preference pair、edge case → eval set、failure taxonomy → 训练 priority。契约式交付样例。
你 own 一个 harness,模型每 6 个月升级一代。设计完整工程流程:升级前的 candidate 评估 → 升级时的 A/B 灰度 → 升级后的反馈交付。这一流程怎么把 #27 协同演进和 #32 反馈闭环结合成可重复的 SOP?
跑完这套路径,你应该能回答这些问题——不是"听过",是"能讲清"。
能讲清这 9 个,你掌握了 harness 工程的核心决策框架。如果有哪一题卡住,回到对应章节深读那一节的"工程权衡"和"自检清单"。
下一步:不强求一周读完——P0 学完后,P1/P2 章节(剩下 16 个)按需要查就好。教程的真正用途是把"知识地图"变成"判断力",这个过程更像反复回看,不像考试一次过。