Architecture Note DOC—MEM/01 · agent-memory REV 2026.04 · a
— The Memory Architecture Note —

Agent Memory/下一個決勝點

Compiled by 2026·04·29 STATUS · ACTIVE
MEMORY · 4-LAYER stateless LLM × 4 layers × 4 frontier directions × 4 hardest questions — RAG ≠ memory · the next moat
Working
短期 · 思考中
Episodic
事件 · 經歷過
Semantic
知識 · 文件庫
Procedural
技能 · 怎麼做
figure 00 · thesis Smart,
but always
day one.
在多數 AI Agent 的設計裡,大家忙著優化「大腦」(換更大的模型、調更巧妙的 prompt)。 可是有一個更本質的問題沒人正面回答—— LLM 天生是 stateless 的。 每一次呼叫、每一次對話,agent 都是從零開始。 這就導致 agent 無法記住過去決策、無法延續長任務、無法建立使用者理解、無法從錯誤中學。 結果就是:AI 很聰明,但永遠像「第一次合作的同事」。 這份筆記拆解 memory 為什麼變成 agent 進化的關鍵層、它真正的架構長什麼樣,以及 2026 的研究前沿在哪。
下一個 AI 的競爭,不在誰的大腦比較強
而在誰的記憶系統比較好
RAG 讓 AI 可以「查資料」,但 memory 才讓 AI 能累積經驗、形成判斷、真正進化
01/05
— The Stateless Brain
沒有記憶的大腦 · 四個失能
每一次 LLM 呼叫都是「重置」。沒有上下文延續、沒有歷史可追、沒有偏好可循、沒有錯誤紀錄。 這四種失能加起來,就是企業導入 agent 最大的隱性瓶頸。
// stateless

每次都是「初次見面」。

LLM 本質上是個「輸入進去、輸出出來」的純函數。它不記得你昨天說過什麼、不知道你公司做什麼、不會記得它上週幫你做過的事——所有的「記得」都是你每次都重新塞回去給它的。

這就讓 agent 在企業場景裡碰到天花板:客服永遠不認得熟客、開發 agent 每次都要重新理解 codebase、行銷 agent 永遠抓不到品牌語感。

AI 很聰明,但永遠像「第一次合作的同事」。

⚠ 四個 stateless 衍生的失能

  • 無法記住過去決策
    上一輪選了 A 方案、為什麼選 A,下一輪都是空白——同樣的 trade-off 反覆爭論。
  • 無法延續長任務
    超過 context window 的工作就會斷頭。「上週做到哪裡了?」沒人答得出來。
  • 無法建立使用者理解
    不知道你的角色、口頭禪、偏好的回答長度——個人化只能靠你每次自己提醒。
  • 無法從錯誤中學習
    同樣的 bug 修一萬次。沒記錄、沒因果、沒回饋環,無法「越用越強」。
02/05
— RAG is not Memory
RAG 是查詢,不是記憶
「我們有做 RAG,所以有 memory」——這是業界最常見的誤解。 RAG 本質上是 retrieval(查資料),是「知識檢索」, memory 是「狀態與經驗的累積」,兩者根本不是同一層。
// common-misconception
RAG · WHAT IT IS

Retrieval

給定一個 query,從文件庫裡找出最相關的片段塞進 prompt。本質是「跑去翻書、把書頁抄一段給 LLM」。每次查詢獨立、不留痕跡。

不是同一回事
MEMORY · WHAT IT IS

State + Experience

記得「我們之前做過什麼、結果怎樣、學到什麼」——是跨呼叫的狀態與經驗累積。會更新、會遺忘、會影響未來決策。

⚠ 01

沒有狀態

No state

不知道任務做到哪一步、上一輪結論是什麼、下一步該銜接什麼。

⚠ 02

沒有時間概念

No temporal sense

查到的文件可能是兩年前的舊版——RAG 不知道哪份才是「最新的決策」。

⚠ 03

沒有人格 / 偏好

No persona

不知道這個公司、這個使用者的風格、偏好回答長度、語氣禁忌。

⚠ 04

不會學習

No feedback loop

查完資料就結束,這次的回答好或壞,不會影響下次怎麼查、怎麼答。

03/05
— The Four-Layer Architecture
記憶四層 · 對映認知科學
Memory 不是一個 database 能解決的問題——它是一個分層的系統。 每一層解決不同問題、用不同技術,靈感直接借自人類認知科學的記憶分類。
// memory-stack
M1
Working Memory
短期記憶
≈ 「正在思考的內容」
當前對話、任務狀態、中間推理結果——agent 此刻在處理的所有東西。 它是 context window 內的一切,活在 RAM 等級的速度,但容量極小、一關機就消失。
TECH
context window scratchpad temp state
M2
Episodic Memory
事件記憶
≈ 「經歷過什麼」
過去做過的任務、操作紀錄、interaction history—— 所有「誰、什麼時候、做了什麼、結果怎樣」的時間序列。 回溯決策、分析行為、debug agent 都靠這層。
TECH
event log trace store session db
M3
Semantic Memory
知識記憶
≈ 「知道什麼事實」
文件、知識庫、FAQ、組織規則、產品 SPEC—— 脫離具體事件存在的事實與概念。 這一層才是 RAG 真正所在的位置—— 它解決的只是「semantic 這層怎麼查得快」。
TECH
vector DB embedding chunking graph KB
M4
Procedural Memory
技能記憶
≈ 「怎麼做事情」
SOP、workflow、tool 使用方式——「遇到 X 就應該 Y」的流程化知識。 人類把它叫做肌肉記憶。這層對企業最重要、卻最常被忽略—— 它才是把「個人經驗」變成「組織能力」的關鍵。
TECH
skills lib SOP engine tool registry workflow
RECAP 所以下次有人說「我們有做 RAG 等於有 memory」——你可以告訴他: RAG 只是 Semantic(M3)這一層的一小部分。 Working / Episodic / Procedural 都還沒做,那不叫有 memory,那叫做了個搜尋。
04/05
— Frontier Directions 2025·2026
2026 前沿 · 從「有沒有」到「怎麼設計」
過去一年 memory 已經從「功能 checkbox」進化成「架構議題」。 以下四個方向,是學界與廠商共同在推的下一步。
// research-frontier
F1

Graph Memory

Relational Memory

Memory 不再是 chunk 的集合,而是「關係網路」。Entity 之間有連結、支援 multi-hop reasoning,更接近人類知識結構。

從 list of facts → web of relations
F2

Memory OS

Memory as Infrastructure

把 memory 當作一個系統設計:storage / retrieval / update / generation 四個 primitive。不再只是 vector DB,而是一整層 infra。

從 single DB → operating system
F3

Memory = Learning

Memory as the Loop

最關鍵轉變:memory 本身就是 learning 機制——記錄行為、記錄結果、建立因果、影響未來決策。Agent 才會「越用越強」。

從 storage → continuous learning
F4

Memory Benchmark

Quantifying the Unknown

長期記憶能力、retrieval 準確度、forgetting 機制、跨任務推理——memory 已成為可量化的能力,不再是「我覺得有用」的玄學。

從 vibes → measured capability
05/05
— The Hardest Problem
最難的不是儲存 · 是「該存什麼」
所有 memory 系統都卡在同一道牆—— 不是「怎麼存」(這是工程問題),而是「該存什麼」(這是判斷問題)。 以下四個問題,現在沒有任何系統真正解開。
// memory-update
什麼該記?

Raw data v.s. Structured insight

所有對話 raw log
vs
抽象後的結論 / 規則

記原始對話資料量會爆炸、檢索效率差;只記結論又怕抽象過度、丟失細節。哪些 conversation 該成為長期記憶、哪些該過完即忘?目前沒有公認的判定方法。

怎麼抽象?

Content v.s. Pattern

直接存內容
vs
轉成 knowledge / rule

從 raw log 抽出「規則」需要 LLM 介入做二階推理——但誰保證抽象的結論是對的?錯誤的 pattern 一旦寫入 memory 會持續污染未來決策,比「沒記憶」更糟。

什麼時候更新?

Real-time v.s. Batch

即時寫入 memory
vs
batch 統整再寫

即時寫入會讓 memory 充滿噪音、agent 容易自我加強錯誤;batch learning 雖然乾淨,卻失去了「當下校正」的機會。Real-time × batch 的混合策略還在摸索。

什麼該忘?

Forgetting is a feature

過期資訊 / 錯誤決策
vs
暫時 noise / 偶發雜訊

沒有 forgetting,就沒有真正的 learning——錯誤 / 過期 / 雜訊會把 agent 拖進泥沼。但人類自己也說不出記憶該怎麼遺忘,要 agent 做對更難。

— The Real Moat —

Bigger Brain Better Memory

接下來 AI 的差距,不會只在模型大小推理能力。 而會在「誰的 memory system 設計得比較好」——因為 memory 直接決定了: 能不能長期做任務、能不能個人化、能不能持續優化、能不能建立 user relationship。 RAG 讓 AI 可以查資料;memory 才讓 AI 能累積經驗、形成判斷、真正進化。 下一個十年,誰先把 working / episodic / semantic / procedural 四層全部接起來、 再把 update 那道牆解開,誰就握住了 agent 的真正護城河。

Further Reading 延伸閱讀