Anatomy Sheet DOC—ANT/01 · agent-body REV 2026.04 · a

— The Enterprise Agent Anatomy —

企業 Agent/解剖學

Compiled by 2026·04·29 STATUS · ACTIVE

ANATOMY · 4-PART a working agent = brain + senses + limbs + tools — 任何一塊缺位，agent 就只是一個 chatbot

大腦

LLM · Reason

五官

Input Layer

手腳

Action Layer

工具

Tools / MCP

figure 00 · thesis A body,
not just
a brain.

你問什麼是「企業 Agent」？最直觀的拆法就是把它當一個身體。大腦負責想——LLM 推理、決策、規劃；五官負責感——把語音、文字、影像、API event 變成 token；手腳負責動——讀寫資料、呼叫 API、操作系統；工具則是把大腦本來不會的能力外掛上來的器具。四塊缺一不可。沒有五官的 LLM 是個瞎子，沒有手腳的 LLM 是個植物人，光有大腦不會解決企業裡的任何問題。

01^/04

— The Brain

◉大腦 · 推理中樞

Agent 的決策來源——LLM 接住所有輸入、做出推理與計畫，並把要動什麼的指令交給下游。它是中樞，也是限制：大腦本身沒有長期記憶。

// llm-core

把碎片資訊綁成決策。

大腦做的事可以濃縮成一句話：用語言這個界面，把推理、規劃、工具選擇集中在同一個地方。當你給它一句任務、一張圖、一段歷史，它丟回來的是「下一步該做什麼」。

多模型協作（multi-agent / multi-LLM orchestration）也是這層的事—— Manager LLM 派任務、Worker LLM 各司其職、Critic LLM 做品管。

→ 致命短板：context window 一關就忘。所以企業 agent 必須再外掛記憶層，否則昨天客戶的 onboarding 進度今天得從零開始。

基礎模型 LLM

Foundation Model

GPT-5、Claude Opus 4.7、Gemini 2.5——agent 的「能不能」上限由此決定。選模型 = 選能力 / 成本 / 合規的三角組合。

推理 / 規劃

Reasoning & Planning

把任務拆步驟、決定先做什麼。plan → act → reflect → revise 的迴圈跑在這層。

多 Agent 協作

Multi-Agent Orchestration

把不同職能的 LLM 串成一個 team——Manager 派工、Worker 執行、Critic 把關。一個案子可以同時跑多個 brain。

系統提示 / 護欄

System Prompt & Guardrails

大腦的「人格」與底線寫在這裡——身份、邊界、輸出格式、禁止事項。Claude Design 系統提示是業界範本。

02^/04

— The Senses

◉五官 · 輸入層

把客戶的聲音、員工貼進來的截圖、ERP 的 webhook、Slack 訊息—— 全部翻譯成大腦讀得懂的 token。這條翻譯品質決定 agent 能不能接住人類意圖。

// input-layer

把世界轉成 token。

不管原本是聲音、圖片、按鈕點擊，還是 API 推來的 JSON—— 在進到大腦之前，全部都得被「翻譯」成可被 attention 機制處理的 token 序列。

這層的好壞，決定 agent 「聽不聽得懂人話」。 ASR 模型差一截、OCR 漏一行、API event payload 沒結構化好，下游再強的模型也救不回。

→ 實務重點：input layer 是「品質瓶頸」。前端噪音吃越多，大腦越累越貴；事先做正規化、降噪、抽欄位，整體 token 用量可以砍 30~70%。

語音 · ASR

Automatic Speech Recognition

客服電話、會議錄音、語音指令——靠 ASR 模型轉文字。Whisper / Deepgram 一級 API，現成可用。

文字 · Text

Chat / Email / Doc

最直接的輸入。Slack / Email / 工單 / Markdown——通常還要做 PII 遮罩、語言偵測、章節切割。

影像 · Vision

Image / Screenshot / Video

截圖、發票、流程圖、UI 截圖——多模態 LLM 直接吃，或先過 OCR / VLM 做欄位抽取。

系統訊號 · API Event

Webhook / Sensor / Trigger

ERP / CRM / Linear 的事件推播——訂單成立、票被指派、CI 失敗——讓 agent 能「主動」反應，而不只被動等問。

03^/04

— The Limbs

◉手腳 · 行動層

當大腦決定「做什麼」，手腳就要把它變成系統裡的副作用—— 讀資料、寫資料、呼叫第三方、操作 GUI。這是 agent 真正改變世界的地方。

// action-layer

改變世界的副作用。

聊天和分析都不算 agent——能在系統裡留下「副作用」（side effect）才是。手腳負責把意圖落地：寫一筆 DB、發一封信、開一張票、按一下按鈕。

這也是 agent 最危險的地方：上一篇文章的 PocketOS 9 秒事件、Vercel 供應鏈，本質都是「手腳被授予太多權限」。所以 limb 必須配 最小權限 + dry-run + break-glass。

→ 關鍵守則：每個 action 都要有 scope、有 audit log、有人類可介入的 break-glass。9 秒抹掉資料庫就是手腳沒守住。

Read · 查資料

Read-Only Operations

SQL select、API GET、檔案讀取、向量檢索。讀通常風險最小，是 agent 第一階段最常被授權的能力。

Write · 寫資料

Mutating Operations

INSERT、UPDATE、PUT、寄信、改設定——一旦動了會留痕跡。建議從 staging 開始、配人類 review。

Call API · 呼叫第三方

External API Calls

呼叫 Stripe 退款、Linear 改 ticket、Slack 發通知——典型整合場景，token 權限要切細。

Operate UI · 操作系統 (RPA)

Browser / Desktop Automation

當系統沒 API 只有 UI，agent 就用 Playwright / Selenium / 桌面 RPA 模擬點擊。風險最高、回饋最慢。

04^/04

— The Toolkit

◉工具 · 能力外掛

大腦本來不會做的事——查股價、跑數學、訂飛機票、改 Figma—— 都靠工具把外部能力綁進來。MCP 是這一波最重要的標準化嘗試。

// tools-mcp

讓大腦能力外掛化。

LLM 是泛用語言機器，不會打具體系統。把「打」這件事抽出來變成 tool，大腦只要會挑工具、傳參數、解讀結果，就能無限延伸自己的能力邊界。

從 OpenAI function calling 到 Anthropic 的 MCP（Model Context Protocol），產業正在把工具呼叫從「每家自己實作」收斂成「跨家共用標準」—— 一個 MCP server 寫一次，所有 MCP-aware 的 agent 都能用。

→ 取捨：工具給太少 agent 變廢物，給太多 context 爆掉、風險也升高。Skill library（Karpathy / Claude Skills）是用「按需載入」化解這個矛盾。

Function Calling

Per-Vendor API

各家 LLM 自己定的工具呼叫格式（OpenAI tools / Anthropic tool_use）。最早期、現在仍是主流。

MCP Server

Model Context Protocol

Anthropic 推的跨廠商標準——一個 MCP server 提供 tools / resources / prompts，所有 MCP-aware client 都能接。

Skill Library

On-Demand Skills

把工具組合成「能力包」——Karpathy 89k★ 與 Claude Skills，agent 按任務需求動態載入。

Tool Registry / Catalog

Discovery & Governance

企業層的工具治理——誰能用哪個、哪個工具版本是 stable、誰負責維護。MCP server 越多越需要 catalog。

— The Whole Body —

大腦 + 五官 + 手腳 + 工具

聊天機器人只有大腦——能說，不能做。 RPA 只有手腳——能做，不會想。 真正的 Agent 是這四塊整合在一起的活體：五官把世界翻譯成 token、大腦推理出意圖、工具補足能力短板、手腳把意圖變成副作用。下一篇要看的，是如何給這個身體加上「記憶」和「規矩」——讓它不只能動，還能持續地動、安全地動。這就是 harness engineering 與 managed memory 在處理的事。

◉ Further Reading 延伸閱讀

→ 01 · BRAIN

Memory Layer

把碎片資訊綁成決策。

把世界轉成 token。

改變世界的副作用。

讓大腦能力外掛化。

大腦 + 五官 + 手腳 + 工具

Claude Managed Agents Memory

AI Agent 導入流程藍圖

9 秒抹掉一間公司的資料庫

Karpathy 四原則 — CLAUDE.md 紀律