Anatomy Sheet DOC—ANT/01 · agent-body REV 2026.04 · a
— The Enterprise Agent Anatomy —

企業 Agent/解剖學

Compiled by 2026·04·29 STATUS · ACTIVE
ANATOMY · 4-PART a working agent = brain + senses + limbs + tools — 任何一塊缺位,agent 就只是一個 chatbot
大腦
LLM · Reason
五官
Input Layer
手腳
Action Layer
工具
Tools / MCP
figure 00 · thesis A body,
not just
a brain.
你問什麼是「企業 Agent」?最直觀的拆法就是把它當一個身體大腦負責想——LLM 推理、決策、規劃; 五官負責感——把語音、文字、影像、API event 變成 token; 手腳負責動——讀寫資料、呼叫 API、操作系統; 工具則是把大腦本來不會的能力外掛上來的器具。 四塊缺一不可。沒有五官的 LLM 是個瞎子,沒有手腳的 LLM 是個植物人, 光有大腦不會解決企業裡的任何問題。
大腦 LLM CORE CORE orchestration read write — BRAIN 大腦 · 推理中樞 LLM / decisions / plans — SENSES 五官 · 輸入層 ASR / text / vision / API — LIMBS 手腳 · 行動層 read / write / API / RPA — TOOLS 工具 · 能力外掛 MCP / function / skills ⚠ BRAIN HAS NO LONG-TERM MEMORY world → tokens → ← intent → action
01/04
— The Brain
大腦 · 推理中樞
Agent 的決策來源——LLM 接住所有輸入、做出推理與計畫, 並把要動什麼的指令交給下游。它是中樞,也是限制:大腦本身沒有長期記憶
// llm-core

把碎片資訊綁成決策。

大腦做的事可以濃縮成一句話:用語言這個界面,把推理、規劃、工具選擇集中在同一個地方。 當你給它一句任務、一張圖、一段歷史,它丟回來的是「下一步該做什麼」。

多模型協作(multi-agent / multi-LLM orchestration)也是這層的事—— Manager LLM 派任務、Worker LLM 各司其職、Critic LLM 做品管。

致命短板:context window 一關就忘。所以企業 agent 必須再外掛記憶層,否則昨天客戶的 onboarding 進度今天得從零開始。
L1
基礎模型 LLM
Foundation Model

GPT-5、Claude Opus 4.7、Gemini 2.5——agent 的「能不能」上限由此決定。選模型 = 選能力 / 成本 / 合規的三角組合。

L2
推理 / 規劃
Reasoning & Planning

把任務拆步驟、決定先做什麼。plan → act → reflect → revise 的迴圈跑在這層。

L3
多 Agent 協作
Multi-Agent Orchestration

把不同職能的 LLM 串成一個 team——Manager 派工、Worker 執行、Critic 把關。一個案子可以同時跑多個 brain。

L4
系統提示 / 護欄
System Prompt & Guardrails

大腦的「人格」與底線寫在這裡——身份、邊界、輸出格式、禁止事項。Claude Design 系統提示是業界範本。

02/04
— The Senses
五官 · 輸入層
把客戶的聲音、員工貼進來的截圖、ERP 的 webhook、Slack 訊息—— 全部翻譯成大腦讀得懂的 token。這條翻譯品質決定 agent 能不能接住人類意圖。
// input-layer

把世界轉成 token。

不管原本是聲音、圖片、按鈕點擊,還是 API 推來的 JSON—— 在進到大腦之前,全部都得被「翻譯」成可被 attention 機制處理的 token 序列。

這層的好壞,決定 agent 「聽不聽得懂人話」。 ASR 模型差一截、OCR 漏一行、API event payload 沒結構化好,下游再強的模型也救不回。

實務重點:input layer 是「品質瓶頸」。前端噪音吃越多,大腦越累越貴;事先做正規化、降噪、抽欄位,整體 token 用量可以砍 30~70%。
S1
語音 · ASR
Automatic Speech Recognition

客服電話、會議錄音、語音指令——靠 ASR 模型轉文字。Whisper / Deepgram 一級 API,現成可用。

S2
文字 · Text
Chat / Email / Doc

最直接的輸入。Slack / Email / 工單 / Markdown——通常還要做 PII 遮罩、語言偵測、章節切割。

S3
影像 · Vision
Image / Screenshot / Video

截圖、發票、流程圖、UI 截圖——多模態 LLM 直接吃,或先過 OCR / VLM 做欄位抽取。

S4
系統訊號 · API Event
Webhook / Sensor / Trigger

ERP / CRM / Linear 的事件推播——訂單成立、票被指派、CI 失敗——讓 agent 能「主動」反應,而不只被動等問。

03/04
— The Limbs
手腳 · 行動層
當大腦決定「做什麼」,手腳就要把它變成系統裡的副作用—— 讀資料、寫資料、呼叫第三方、操作 GUI。這是 agent 真正改變世界的地方。
// action-layer

改變世界的副作用。

聊天和分析都不算 agent——能在系統裡留下「副作用」(side effect)才是。 手腳負責把意圖落地:寫一筆 DB、發一封信、開一張票、按一下按鈕。

這也是 agent 最危險的地方:上一篇文章的 PocketOS 9 秒事件、Vercel 供應鏈, 本質都是「手腳被授予太多權限」。所以 limb 必須配 最小權限 + dry-run + break-glass

關鍵守則:每個 action 都要有 scope、有 audit log、有人類可介入的 break-glass。9 秒抹掉資料庫就是手腳沒守住。
A1
Read · 查資料
Read-Only Operations

SQL select、API GET、檔案讀取、向量檢索。讀通常風險最小,是 agent 第一階段最常被授權的能力。

A2
Write · 寫資料
Mutating Operations

INSERT、UPDATE、PUT、寄信、改設定——一旦動了會留痕跡。建議從 staging 開始、配人類 review。

A3
Call API · 呼叫第三方
External API Calls

呼叫 Stripe 退款、Linear 改 ticket、Slack 發通知——典型整合場景,token 權限要切細。

A4
Operate UI · 操作系統 (RPA)
Browser / Desktop Automation

當系統沒 API 只有 UI,agent 就用 Playwright / Selenium / 桌面 RPA 模擬點擊。風險最高、回饋最慢。

04/04
— The Toolkit
工具 · 能力外掛
大腦本來不會做的事——查股價、跑數學、訂飛機票、改 Figma—— 都靠工具把外部能力綁進來。MCP 是這一波最重要的標準化嘗試。
// tools-mcp

讓大腦能力外掛化。

LLM 是泛用語言機器,不會打具體系統。把「打」這件事抽出來變成 tool, 大腦只要會挑工具、傳參數、解讀結果,就能無限延伸自己的能力邊界。

從 OpenAI function calling 到 Anthropic 的 MCP(Model Context Protocol), 產業正在把工具呼叫從「每家自己實作」收斂成「跨家共用標準」—— 一個 MCP server 寫一次,所有 MCP-aware 的 agent 都能用。

取捨:工具給太少 agent 變廢物,給太多 context 爆掉、風險也升高。Skill library(Karpathy / Claude Skills)是用「按需載入」化解這個矛盾。
T1
Function Calling
Per-Vendor API

各家 LLM 自己定的工具呼叫格式(OpenAI tools / Anthropic tool_use)。最早期、現在仍是主流。

T2
MCP Server
Model Context Protocol

Anthropic 推的跨廠商標準——一個 MCP server 提供 tools / resources / prompts,所有 MCP-aware client 都能接。

T3
Skill Library
On-Demand Skills

把工具組合成「能力包」——Karpathy 89k★Claude Skills,agent 按任務需求動態載入。

T4
Tool Registry / Catalog
Discovery & Governance

企業層的工具治理——誰能用哪個、哪個工具版本是 stable、誰負責維護。MCP server 越多越需要 catalog。

— The Whole Body —

大腦 + 五官 + 手腳 + 工具

聊天機器人只有大腦——能說,不能做。 RPA 只有手腳——能做,不會想。 真正的 Agent 是這四塊整合在一起的活體: 五官把世界翻譯成 token、大腦推理出意圖、工具補足能力短板、手腳把意圖變成副作用。 下一篇要看的,是如何給這個身體加上「記憶」和「規矩」——讓它不只能動,還能持續地動、安全地動。 這就是 harness engineering 與 managed memory 在處理的事。

Further Reading 延伸閱讀