AI Scientist/會做研究的 Agent
Experiment &
Peer Review.
2026 年 3 月,Sakana AI 與 UBC、Vector Institute、Oxford 的研究團隊在 Nature 發表了 The AI Scientist——一個能自主執行整個機器學習研究生命週期的 agent: 生成想法、搜文獻、設計實驗、寫程式、跑實驗、畫圖、寫論文、審稿,全部自動。
v2 版本的突破更具象徵意義:它產出的論文(未經人類修改)被 ICLR 2025 ICBINB Workshop 以匿名 peer review 接受——平均分 6.33、勝過 55% 人類作者論文。這是第一篇通過嚴格人類同儕審查的全 AI 生成論文。
這不是一個寫 prompt 的玩具。它是一條完整的研究產線,每一站都可以被 benchmark、被 scaling。模型越強,產出越好——研究本身,開始變成「可規模化」的工序。
Legend · 圖例
- Structural Frame
- Research Flow
- Score / Signal
- Nature / Milestone
主題 Seed
從人類研究者提供的大方向起跳——nanoGPT、diffusion、grokking、attention 機制等,都是試過的種子題目。
批量發想
一次產出多個候選假設,模型在自我對話中迭代、組合、拒絕,模擬 brainstorming 的多樣性。
新穎性檢查
比對既有文獻與實驗紀錄,過濾掉已被做過的想法——讓後續實驗資源投入真正的空白領域。
可行性評估
評估每個假設在當前計算預算、工具能力、時間尺度內的可實現性——不是所有好想法都跑得起來。
ICBINB Workshop 同儕審查
Automated Reviewer
但 AI Scientist 還不是完美的研究者
想法仍偏淺
產出的研究假設有時「naive or underdeveloped」,缺乏真正原創、打破典範的洞見——這是 foundation model 本身的天花板。
方法論深度不足
面對 rigorous methodology 與複雜的程式實作(多 GPU、複雜資料管線)仍力有未逮,容易繞過難點用簡化版跑結果。
幻覺 / 引用錯誤
會出現假引用、錯圖、或重複使用的 figure——所以作者團隊主動撤回被接受的論文、對所有 AI 論文加上浮水印。
研究×工序化×Scaling
研究可被工序化
「生成想法 → 實驗 → 寫論文 → 審稿」這條鏈路可以被拆解、模組化、benchmark。每一站都能獨立優化。
Scaling Law 延伸到科學
模型越強,論文品質越高——這意味著 foundation model 的進步會直接轉譯成「科學產出的進步」。
研究社群得重新思考
當 AI 能寫出通過 peer review 的論文,社群需要新的規範:透明性、浮水印、歸屬認定。作者團隊已主動示範。
1B 模型時代
Karpathy 的論點:精煉模型才是未來——AI Scientist 用小核心 + agent 系統做研究是這條路的早期證據。
Human Middleware 之死
一個 builder + agent 系統 = 部門級產能,這個論點放到研究領域就是 AI Scientist。
Agent Skills 工作流
從 idea-refine、spec、TDD、review 到 release——同一套工程紀律可套到自動化研究流程。