Manual № 26·04·17 Rev. 1 Section A Harness Engineering
CONFIRMED
2026
NEW ERA

Harness
Engineering

當 AI Agent 的護城河不再是模型——而是環境

Abstract

Harness 是包在 AI 模型外的整個工作環境——給它的說明、它能用的工具、你怎麼驗收產出。2026 年的共識:真正的技術護城河不在模型本身,而在這層環境

這份手冊用四張流程圖,把 Harness Engineering 的核心拆開看——從三代範式躍遷,到 Guides × Sensors 的控制機制,再到動手建第一個 Harness 的五個階段

從 Prompt
到 Harness

過去四年 AI 工程的關注點從「怎麼問」推到「該餵什麼」,再推到「要建什麼系統」——每一代把前一代吸收成子模組,嚴謹性只是不斷搬家

Fig. 01 Three Generations · 三代容納關係
2026 — harness engineering 建什麼「系統」 設計整個郵務系統 2025 — context engineering 模型「看」什麼 附上所有相關附件 2022 · 2024 — prompt engineering 怎麼「說」 寫一封完美的信 containment → each era absorbs the last relocating rigor · chad fowler ← scope →
source — wiki/concepts/harness-engineering.md diagram · containment model

Guides × Sensors

一個成熟的 Harness 需要兩種控制——事前的引導與事後的檢查。少一個,agent 要嘛盲目試錯,要嘛重複犯同樣的錯還不自知

01 — Feed-forward
Guides引導
在 agent 行動之前介入的說明。告訴它「好結果長什麼樣」「這裡的架構規則是什麼」「做完要怎麼測」

例:AGENTS.md/CLAUDE.md、架構文檔、Skills、MCP Server 提供的知識
02 — Feed-back
Sensors感測器
在 agent 行動之後介入的檢查。觀察 agent 做了什麼,產生修正訊號

例:ESLint、type checker、測試套件、AI Code Review、Architecture Review
Fig. 02 Steering Loop · 轉向迴路
feed-forward Guides AGENTS.md · Skills core Agent 生成 · 行動 · 產出 feed-back Sensors linter · test · review instruct verify Pass? yes · merge 合併 · deploy no · self-modify * linter err = repair instruction openai codex · positive injection
source — wiki/concepts/guides-sensors-框架.md diagram · control loop

2 × 2 矩陣

把 Guide/Sensor 與 Computational/Inferential 交叉,得到一張 Harness 的完整地圖——大部分團隊只有左下(linter + 測試),缺右上(系統性前饋)與右下(語義審查)

Fig. 03 Guides × Sensors · Böckeler Matrix
EXECUTION TYPE Computational deterministic · fast · cpu Inferential probabilistic · slow · gpu CONTROL MODE Guide 前饋 Sensor 回饋 Q1 · guide × computational 靜態合約 • LSP · Language Server • TypeScript 型別系統 • 架構文檔 · 依賴圖 • Schema · OpenAPI spec Q2 · guide × inferential 語義指引 • AGENTS.md · CLAUDE.md • Skills · SOP markdown • AI 規劃 · plan agent • MCP Server · 知識存取 Q3 · sensor × computational 確定性檢查 • ESLint · semgrep • 測試套件 · coverage • dep-cruiser · structural • type check · compile ← most teams live here Q4 · sensor × inferential 語義審查 • AI Code Review • Architecture Review • LLM-as-judge · evaluator • generator-evaluator loop blind spot
source — wiki/concepts/guides-sensors-框架.md after Böckeler / martinfowler.com

模型越強,Harness 不會變得不重要
反而會變得重要

— Aakash Gupta · Medium · 2026

Level 1 → 5

動手建第一個 Harness 的漸進路徑:從寫一份 AGENTS.md 開始,逐步加上感測、CI、語義審查、可觀測性——每一階都在填滿 2×2 矩陣的一個象限

Fig. 04 Implementation Ladder · 實作累積
baseline · zero harness level 01 AGENTS.md first guide level 02 ESLint 自訂 computational sensor level 03 CI Pipeline automation level 04 AI Review inferential sensor level 05 Observability closed loop harness maturity → metrics surfaced PR first-pass rate · iteration count · reject rate
source — wiki/howto/建立第一個-harness.md diagram · cumulative layering

關鍵直覺——每一階都是累加。不是 L5 取代 L1,而是 L5 站在 L1→L4 的肩膀上。只建 L2(linter)卻跳過 L1(AGENTS.md)是最常見的錯——沒有前饋,agent 只能不斷試錯,回饋再多也學不到東西

Five Pitfalls

建好 Harness 不等於高枕無憂——這五個坑最常讓團隊跌進去

PITFALL 01

過度約束

200 行微操手冊 = 很貴的 code template。約束架構決策,不要約束實作細節

PITFALL 02

Harness 本身的 bug

Who watches the watchmen?用 production telemetry 驗證 harness 有效性

PITFALL 03

只有回饋沒有前饋

agent 盲目寫→失敗→改→失敗循環。投資 AGENTS.md 的 ROI 遠高於測試覆蓋

PITFALL 04

忽略推理型感測

linter 抓不到「技術上對但精神上錯」的程式碼。要 AI review 補上語義層

PITFALL 05

當成一次性工作

agent 犯錯 = 信號。問「harness 缺了什麼?」然後補回去——harness 是活的

TAKEAWAY
harness
is a living
system