Field Note DOC—1B.MODEL/01 REV 2026.04 · a
— Toward Smaller, Cleaner LLMs —

1B 模型時代·從堆規模到精煉

Compiled by 2026·04·25 After Andrej Karpathy
figure 00 · the bet 1Bparams vs
1T+ today

Andrej Karpathy 在一次訪談中拋出一個正在被認真討論的觀點:未來的大語言模型不會繼續變大,反而會變小

他的論點骨架是:今天動輒上兆參數,並不是「推理需要那麼大」,而是訓練資料太雜——破碎 HTML、論壇灌水、重複內容、AI 生成的二手資料。模型被迫用大量參數去「壓住」這些噪音,本質上是一種低效率的記憶。

如果資料能徹底清洗、只留下高密度知識,模型可能瘦到 1B 量級仍維持能力——並把「記事實」這件事外包給檢索,把「會推理」這件事留給核心。這條路若走得通,AI 就會從資料中心走進你的口袋。

Legend · 圖例

  • Structural
  • Cognitive Core
  • External Memory
  • Noise · Bloat
Today · 現況
1T+

大模型 · 重資料

用兆級參數壓縮網路雜訊,記事實 + 推理混在一起。

Tomorrow · 推測
1B

小核心 + 外部記憶

清洗過的資料養出推理核心,事實交給檢索層。

01/05
— The Noise Problem
為什麼模型現在這麼大
並不是因為「思考需要那麼多參數」,而是因為訓練資料太雜—— 雜訊吃掉了大半容量,模型用「記憶」彌補資料品質的不足。
// data > size
N · 01

破碎 HTML

Broken Markup

網頁抓取後留下的標籤殘片、廣告殘餘、樣板字——對推理沒幫助,但被一視同仁地餵進模型。

N · 02

論壇灌水

Forum Chatter

數量極大、知識密度極低的留言、感嘆、表情符號——龐大但稀薄,吃掉訓練 budget 卻產出有限。

N · 03

重複文本

Duplicates

同一段內容在不同網站重複出現幾十次——模型反覆看到同樣的東西,效率被攤薄。

N · 04

AI 生成內容

Synthetic Slop

越來越多訓練資料其實是上一代 AI 寫出來的——用 AI 訓 AI,可能反而稀釋知識密度、放大錯誤。

02/05
— Low Compression Ratio
每個 token 究竟學到多少?
Karpathy 用「壓縮率很低」描述現況:每個 token 分配到的真實資訊量很有限, 模型更像在記模糊整體,而不是精確理解。
// info-density
Status Quo 2024–2026

低壓縮率 · 模糊記憶

·
½
·
·
·
½
·
·
·
·
½
·
·
·
·
·
  • 每個 token 攜帶的有效資訊低
  • 模型被迫用參數記住整體模糊印象
  • 知識密度低 → 必須堆規模補足
  • 同樣事實被重複學習多次
~10%
effective info per token
Aspirational Karpathy's Bet

高壓縮率 · 精確理解

½
½
  • 每個 token 都是高密度知識
  • 模型可用更少參數捕捉同樣多概念
  • 從「記住」轉為「理解」
  • 規模可以縮減而不失能力
~90%
effective info per token
參數量不是模型能力的唯一決定因素——資料品質與資訊密度同等關鍵。
03/05
— Split Architecture
認知核心 + 外部記憶
Karpathy 進一步建議架構級的拆分——一個小而精的「會思考」核心, 一個可查詢的外部事實庫。讓「推理」與「記憶」各司其職。
// decoupled
Cognitive Core × External Memory
01
Cognitive Core

認知核心 · 會推理

一個小而精的模型——專注在語意理解、邏輯推理、計畫與問題分解。它不背事實,它懂思考

  • SIZE~1B parameters
  • FOCUS推理 / 規劃 / 對話
  • DATA嚴選高密度語料
  • RUNS ONPhone · Laptop · Edge
query retrieve CTX
02
External Memory

外部記憶 · 會查詢

可被查詢的事實儲存層——文件、知識庫、向量資料庫、企業內部資料。需要時才查、查到才用,把記憶外掛

  • SIZE無上限 · 可擴張
  • FOCUS事實 / 即時 / 領域知識
  • UPDATE無需重訓即可更新
  • PATTERNRAG / Tool Use
類比人類學習:我們不會記住所有細節,而是掌握思考方法、需要時查資料。一個資深工程師不靠背完整本 RFC 過活,他知道在哪能查到、知道查到要怎麼用。Karpathy 的提案,本質上是讓 AI 學會這件事。
04/05
— RAG, Promoted
RAG 從補丁變成主結構
過去 RAG 被視為「補強」——主模型不夠時加掛檢索。 如果 1B 模型論成立,RAG 反而成為主結構的一部分。
// retrieval-first
01
User Query

使用者提問

輸入進入小型認知核心——這個模型本身只「懂」推理流程。

02
Plan & Query

核心規劃

核心拆解問題、決定要查什麼——產出一組 retrieval queries。

03
Retrieve

外部檢索

向外部記憶(vector DB、知識庫、文件)抓回最相關的事實片段。

04
Reason

核心推理

核心拿到事實後,做組合、比對、結論——這才是它最擅長的。

05
Answer

輸出回答

產出回應,必要時引用來源——事實可追溯、知識可更新。

關鍵翻轉: RAG 不再是「主模型不夠用所以加掛」的補丁,而是主架構的核心一環。 模型本體變小變輕,事實層變大變獨立——這是「資料庫 + 應用程式」式的分離,套到 AI 架構上的版本。 連帶的好處是:事實過期不用重訓模型,只要更新資料庫;模型升級不用重灌資料,只要替換核心。
05/05
— What Changes If True
如果這條路走通了,誰會被改變
1B 模型若可行,最直接的影響是 AI 不再被綁在資料中心; 產業競爭重心也將從「堆算力」轉向「資料品質與整合」。
// local-first
📱

手機 · 隨身 AI

Phone · Pocket AI

1B 模型可在手機晶片上原生跑,無需雲端往返——延遲、隱私、離線可用三贏。

💻

筆電 · 私人助理

Laptop · Private Copilot

內建小核心 + 個人文件作為外部記憶——你的真實私人助理,不上傳任何資料。

🔌

邊緣裝置 · 工業

Edge · Industrial

機器人、車載、IoT——延遲敏感、頻寬受限的場景終於可以跑得起像樣的 AI。

🏢

企業 · 內網部署

Enterprise · On-Prem

合規、機密、稽核需求——小模型 + 內部知識庫做 RAG,資料不出企業邊界。

面向 過去 · Today 未來 · Karpathy's Bet
競爭核心 堆算力、堆參數、堆 GPU 資料品質 + 模型設計 + 系統整合
部署方式 資料中心 → API → 應用 本地裝置直接執行 · 雲端可選
事實更新 重新訓練整個模型 只更新外部記憶層(RAG / DB)
領域客製化 微調大模型 · 高成本 換掉外部記憶就好 · 快又便宜
能源 / 成本 推論吃電 · API 計費高 本地推論 · 邊際成本接近零
隱私 / 合規 資料必須上傳第三方 本地處理 · 資料不出裝置
Final Take · 結語

Data×Design×Integration

→ 01 · Data

資料品質取代資料數量

誰能清出最乾淨、最高密度的訓練語料,誰就掌握下一代模型的起點。網路上的雜訊不再是資產,是包袱。

×
→ 02 · Design

架構設計取代規模膨脹

把推理和記憶解耦——核心做核心擅長的事、記憶做記憶擅長的事。用結構而非體積,換取更高的智能密度。

×
→ 03 · Integration

系統整合取代單一模型

未來的 AI 產品不是「一個大模型」,而是「小核心 + 檢索層 + 工具鏈」的組合——勝負在系統工程,不在訓練曲線。

Further Reading 延伸閱讀