Harness
Engineering
當 AI Agent 的護城河不再是模型——而是環境
Harness 是包在 AI 模型外的整個工作環境——給它的說明、它能用的工具、你怎麼驗收產出。2026 年的共識:真正的技術護城河不在模型本身,而在這層環境
這份手冊用四張流程圖,把 Harness Engineering 的核心拆開看——從三代範式躍遷,到 Guides × Sensors 的控制機制,再到動手建第一個 Harness 的五個階段
從 Prompt
到 Harness
過去四年 AI 工程的關注點從「怎麼問」推到「該餵什麼」,再推到「要建什麼系統」——每一代把前一代吸收成子模組,嚴謹性只是不斷搬家
Guides × Sensors
一個成熟的 Harness 需要兩種控制——事前的引導與事後的檢查。少一個,agent 要嘛盲目試錯,要嘛重複犯同樣的錯還不自知
- 01 — Feed-forward
- 在 agent 行動之前介入的說明。告訴它「好結果長什麼樣」「這裡的架構規則是什麼」「做完要怎麼測」
例:AGENTS.md/CLAUDE.md、架構文檔、Skills、MCP Server 提供的知識 - 02 — Feed-back
- 在 agent 行動之後介入的檢查。觀察 agent 做了什麼,產生修正訊號
例:ESLint、type checker、測試套件、AI Code Review、Architecture Review
2 × 2 矩陣
把 Guide/Sensor 與 Computational/Inferential 交叉,得到一張 Harness 的完整地圖——大部分團隊只有左下(linter + 測試),缺右上(系統性前饋)與右下(語義審查)
模型越強,Harness 不會變得不重要
反而會變得更重要
Level 1 → 5
動手建第一個 Harness 的漸進路徑:從寫一份 AGENTS.md 開始,逐步加上感測、CI、語義審查、可觀測性——每一階都在填滿 2×2 矩陣的一個象限
關鍵直覺——每一階都是累加。不是 L5 取代 L1,而是 L5 站在 L1→L4 的肩膀上。只建 L2(linter)卻跳過 L1(AGENTS.md)是最常見的錯——沒有前饋,agent 只能不斷試錯,回饋再多也學不到東西
Five Pitfalls
建好 Harness 不等於高枕無憂——這五個坑最常讓團隊跌進去
過度約束
200 行微操手冊 = 很貴的 code template。約束架構決策,不要約束實作細節
Harness 本身的 bug
Who watches the watchmen?用 production telemetry 驗證 harness 有效性
只有回饋沒有前饋
agent 盲目寫→失敗→改→失敗循環。投資 AGENTS.md 的 ROI 遠高於測試覆蓋
忽略推理型感測
linter 抓不到「技術上對但精神上錯」的程式碼。要 AI review 補上語義層
當成一次性工作
agent 犯錯 = 信號。問「harness 缺了什麼?」然後補回去——harness 是活的
is a living
system