Field Note DOC—1B.MODEL/01 REV 2026.04 · a

— Toward Smaller, Cleaner LLMs —

1B 模型時代·從堆規模到精煉

Compiled by 2026·04·25 After Andrej Karpathy

figure 00 · the bet 1Bparams vs
1T+ today

Andrej Karpathy 在一次訪談中拋出一個正在被認真討論的觀點：未來的大語言模型不會繼續變大，反而會變小。

他的論點骨架是：今天動輒上兆參數，並不是「推理需要那麼大」，而是訓練資料太雜——破碎 HTML、論壇灌水、重複內容、AI 生成的二手資料。模型被迫用大量參數去「壓住」這些噪音，本質上是一種低效率的記憶。

如果資料能徹底清洗、只留下高密度知識，模型可能瘦到 1B 量級仍維持能力——並把「記事實」這件事外包給檢索，把「會推理」這件事留給核心。這條路若走得通，AI 就會從資料中心走進你的口袋。

Legend · 圖例

Structural
Cognitive Core
External Memory
Noise · Bloat

Today · 現況

1T+

大模型 · 重資料

用兆級參數壓縮網路雜訊，記事實 + 推理混在一起。

→

Tomorrow · 推測

小核心 + 外部記憶

清洗過的資料養出推理核心，事實交給檢索層。

01^/05

— The Noise Problem

為什麼模型現在這麼大

並不是因為「思考需要那麼多參數」，而是因為訓練資料太雜—— 雜訊吃掉了大半容量，模型用「記憶」彌補資料品質的不足。

// data > size

N · 01

破碎 HTML

Broken Markup

網頁抓取後留下的標籤殘片、廣告殘餘、樣板字——對推理沒幫助，但被一視同仁地餵進模型。

N · 02

論壇灌水

Forum Chatter

數量極大、知識密度極低的留言、感嘆、表情符號——龐大但稀薄，吃掉訓練 budget 卻產出有限。

N · 03

重複文本

Duplicates

同一段內容在不同網站重複出現幾十次——模型反覆看到同樣的東西，效率被攤薄。

N · 04

AI 生成內容

Synthetic Slop

越來越多訓練資料其實是上一代 AI 寫出來的——用 AI 訓 AI，可能反而稀釋知識密度、放大錯誤。

02^/05

— Low Compression Ratio

每個 token 究竟學到多少？

Karpathy 用「壓縮率很低」描述現況：每個 token 分配到的真實資訊量很有限，模型更像在記模糊整體，而不是精確理解。

// info-density

Status Quo 2024–2026

低壓縮率 · 模糊記憶

每個 token 攜帶的有效資訊低
模型被迫用參數記住整體模糊印象
知識密度低 → 必須堆規模補足
同樣事實被重複學習多次

~10%

effective info per token

Aspirational Karpathy's Bet

高壓縮率 · 精確理解

●

每個 token 都是高密度知識
模型可用更少參數捕捉同樣多概念
從「記住」轉為「理解」
規模可以縮減而不失能力

~90%

effective info per token

參數量不是模型能力的唯一決定因素——資料品質與資訊密度同等關鍵。

03^/05

— Split Architecture

認知核心 + 外部記憶

Karpathy 進一步建議架構級的拆分——一個小而精的「會思考」核心，一個可查詢的外部事實庫。讓「推理」與「記憶」各司其職。

// decoupled

Cognitive Core × External Memory

Cognitive Core

認知核心 · 會推理

一個小而精的模型——專注在語意理解、邏輯推理、計畫與問題分解。它不背事實，它懂思考。

SIZE~1B parameters
FOCUS推理 / 規劃 / 對話
DATA嚴選高密度語料
RUNS ONPhone · Laptop · Edge

External Memory

外部記憶 · 會查詢

可被查詢的事實儲存層——文件、知識庫、向量資料庫、企業內部資料。需要時才查、查到才用，把記憶外掛。

SIZE無上限 · 可擴張
FOCUS事實 / 即時 / 領域知識
UPDATE無需重訓即可更新
PATTERNRAG / Tool Use

類比人類學習：我們不會記住所有細節，而是掌握思考方法、需要時查資料。一個資深工程師不靠背完整本 RFC 過活，他知道在哪能查到、知道查到要怎麼用。Karpathy 的提案，本質上是讓 AI 學會這件事。

04^/05

— RAG, Promoted

RAG 從補丁變成主結構

過去 RAG 被視為「補強」——主模型不夠時加掛檢索。如果 1B 模型論成立，RAG 反而成為主結構的一部分。

// retrieval-first

User Query

使用者提問

輸入進入小型認知核心——這個模型本身只「懂」推理流程。

Plan & Query

核心規劃

核心拆解問題、決定要查什麼——產出一組 retrieval queries。

Retrieve

外部檢索

向外部記憶（vector DB、知識庫、文件）抓回最相關的事實片段。

Reason

核心推理

核心拿到事實後，做組合、比對、結論——這才是它最擅長的。

Answer

輸出回答

產出回應，必要時引用來源——事實可追溯、知識可更新。

關鍵翻轉： RAG 不再是「主模型不夠用所以加掛」的補丁，而是主架構的核心一環。模型本體變小變輕，事實層變大變獨立——這是「資料庫 + 應用程式」式的分離，套到 AI 架構上的版本。連帶的好處是：事實過期不用重訓模型，只要更新資料庫；模型升級不用重灌資料，只要替換核心。

05^/05

— What Changes If True

如果這條路走通了，誰會被改變

1B 模型若可行，最直接的影響是 AI 不再被綁在資料中心；產業競爭重心也將從「堆算力」轉向「資料品質與整合」。

// local-first

📱

手機 · 隨身 AI

Phone · Pocket AI

1B 模型可在手機晶片上原生跑，無需雲端往返——延遲、隱私、離線可用三贏。

💻

筆電 · 私人助理

Laptop · Private Copilot

內建小核心 + 個人文件作為外部記憶——你的真實私人助理，不上傳任何資料。

🔌

邊緣裝置 · 工業

Edge · Industrial

機器人、車載、IoT——延遲敏感、頻寬受限的場景終於可以跑得起像樣的 AI。

🏢

企業 · 內網部署

Enterprise · On-Prem

合規、機密、稽核需求——小模型 + 內部知識庫做 RAG，資料不出企業邊界。

面向	過去 · Today	未來 · Karpathy's Bet
競爭核心	堆算力、堆參數、堆 GPU	資料品質 + 模型設計 + 系統整合
部署方式	資料中心 → API → 應用	本地裝置直接執行 · 雲端可選
事實更新	重新訓練整個模型	只更新外部記憶層（RAG / DB）
領域客製化	微調大模型 · 高成本	換掉外部記憶就好 · 快又便宜
能源 / 成本	推論吃電 · API 計費高	本地推論 · 邊際成本接近零
隱私 / 合規	資料必須上傳第三方	本地處理 · 資料不出裝置