企業 Agent/解剖學
not just
a brain.
把碎片資訊綁成決策。
大腦做的事可以濃縮成一句話:用語言這個界面,把推理、規劃、工具選擇集中在同一個地方。 當你給它一句任務、一張圖、一段歷史,它丟回來的是「下一步該做什麼」。
多模型協作(multi-agent / multi-LLM orchestration)也是這層的事—— Manager LLM 派任務、Worker LLM 各司其職、Critic LLM 做品管。
GPT-5、Claude Opus 4.7、Gemini 2.5——agent 的「能不能」上限由此決定。選模型 = 選能力 / 成本 / 合規的三角組合。
把任務拆步驟、決定先做什麼。plan → act → reflect → revise 的迴圈跑在這層。
把不同職能的 LLM 串成一個 team——Manager 派工、Worker 執行、Critic 把關。一個案子可以同時跑多個 brain。
把世界轉成 token。
不管原本是聲音、圖片、按鈕點擊,還是 API 推來的 JSON—— 在進到大腦之前,全部都得被「翻譯」成可被 attention 機制處理的 token 序列。
這層的好壞,決定 agent 「聽不聽得懂人話」。 ASR 模型差一截、OCR 漏一行、API event payload 沒結構化好,下游再強的模型也救不回。
客服電話、會議錄音、語音指令——靠 ASR 模型轉文字。Whisper / Deepgram 一級 API,現成可用。
最直接的輸入。Slack / Email / 工單 / Markdown——通常還要做 PII 遮罩、語言偵測、章節切割。
截圖、發票、流程圖、UI 截圖——多模態 LLM 直接吃,或先過 OCR / VLM 做欄位抽取。
ERP / CRM / Linear 的事件推播——訂單成立、票被指派、CI 失敗——讓 agent 能「主動」反應,而不只被動等問。
改變世界的副作用。
聊天和分析都不算 agent——能在系統裡留下「副作用」(side effect)才是。 手腳負責把意圖落地:寫一筆 DB、發一封信、開一張票、按一下按鈕。
這也是 agent 最危險的地方:上一篇文章的 PocketOS 9 秒事件、Vercel 供應鏈, 本質都是「手腳被授予太多權限」。所以 limb 必須配 最小權限 + dry-run + break-glass。
SQL select、API GET、檔案讀取、向量檢索。讀通常風險最小,是 agent 第一階段最常被授權的能力。
INSERT、UPDATE、PUT、寄信、改設定——一旦動了會留痕跡。建議從 staging 開始、配人類 review。
呼叫 Stripe 退款、Linear 改 ticket、Slack 發通知——典型整合場景,token 權限要切細。
當系統沒 API 只有 UI,agent 就用 Playwright / Selenium / 桌面 RPA 模擬點擊。風險最高、回饋最慢。
讓大腦能力外掛化。
LLM 是泛用語言機器,不會打具體系統。把「打」這件事抽出來變成 tool, 大腦只要會挑工具、傳參數、解讀結果,就能無限延伸自己的能力邊界。
從 OpenAI function calling 到 Anthropic 的 MCP(Model Context Protocol), 產業正在把工具呼叫從「每家自己實作」收斂成「跨家共用標準」—— 一個 MCP server 寫一次,所有 MCP-aware 的 agent 都能用。
各家 LLM 自己定的工具呼叫格式(OpenAI tools / Anthropic tool_use)。最早期、現在仍是主流。
Anthropic 推的跨廠商標準——一個 MCP server 提供 tools / resources / prompts,所有 MCP-aware client 都能接。
企業層的工具治理——誰能用哪個、哪個工具版本是 stable、誰負責維護。MCP server 越多越需要 catalog。
大腦 + 五官 + 手腳 + 工具
聊天機器人只有大腦——能說,不能做。 RPA 只有手腳——能做,不會想。 真正的 Agent 是這四塊整合在一起的活體: 五官把世界翻譯成 token、大腦推理出意圖、工具補足能力短板、手腳把意圖變成副作用。 下一篇要看的,是如何給這個身體加上「記憶」和「規矩」——讓它不只能動,還能持續地動、安全地動。 這就是 harness engineering 與 managed memory 在處理的事。