Field Report DOC—AI.SCI/NATURE REV 2026.04 · a
— The AI Scientist · Now in Nature —

AI Scientist/會做研究的 Agent

Compiled by 2026·04·25 Nature · 2026
figure 00 · thesis Ideate,
Experiment &
Peer Review.

2026 年 3 月,Sakana AI 與 UBC、Vector Institute、Oxford 的研究團隊在 Nature 發表了 The AI Scientist——一個能自主執行整個機器學習研究生命週期的 agent: 生成想法、搜文獻、設計實驗、寫程式、跑實驗、畫圖、寫論文、審稿,全部自動。

v2 版本的突破更具象徵意義:它產出的論文(未經人類修改)被 ICLR 2025 ICBINB Workshop 以匿名 peer review 接受——平均分 6.33、勝過 55% 人類作者論文。這是第一篇通過嚴格人類同儕審查的全 AI 生成論文。

這不是一個寫 prompt 的玩具。它是一條完整的研究產線,每一站都可以被 benchmark、被 scaling。模型越強,產出越好——研究本身,開始變成「可規模化」的工序。

Legend · 圖例

  • Structural Frame
  • Research Flow
  • Score / Signal
  • Nature / Milestone
01/05
— Idea Generation
想法生成 · 研究腦洞
研究從哪裡開始?AI Scientist 接收一個寬泛的研究方向(例如 diffusion models、LLM reasoning), 再透過多輪迭代生出多個具體、可執行、具新穎性的研究假設。
// novelty-driven
i·01

主題 Seed

Research Direction

從人類研究者提供的大方向起跳——nanoGPT、diffusion、grokking、attention 機制等,都是試過的種子題目。

i·02

批量發想

Brainstorm Loop

一次產出多個候選假設,模型在自我對話中迭代、組合、拒絕,模擬 brainstorming 的多樣性。

i·03

新穎性檢查

Novelty Filter

比對既有文獻與實驗紀錄,過濾掉已被做過的想法——讓後續實驗資源投入真正的空白領域。

i·04

可行性評估

Feasibility Score

評估每個假設在當前計算預算、工具能力、時間尺度內的可實現性——不是所有好想法都跑得起來。

02/05
— Literature & Design
文獻搜尋 · 實驗設計
想法定了以後,agent 去找相關論文、消化它們,再把假設轉成可執行的 Python 實驗—— 這一步決定了後面所有輸出的品質。
// ground-in-prior-work
Literature Search 文獻檢索
L·01 Semantic Scholar 相關論文檢索 query expansion · citation graph
L·02 Abstract Parsing 摘要理解 extract: method / dataset / metric
L·03 Gap Analysis 研究空白定位 what has / has not been tried
L·04 Prior-Art Check 防止重工 novelty validation
RESEARCH PLAN
Experiment Design 實驗設計
D·01 Hypothesis Spec 假設形式化 testable · measurable
D·02 Code Scaffolding 程式骨架 modify starter template (e.g. nanoGPT)
D·03 Metric Selection 評估指標 loss · accuracy · ablation targets
D·04 Budget Planning 計算預算 runs × epochs × GPU-hours
03/05
— Parallelized Agentic Tree Search
平行化實驗 · 樹狀搜尋
v2 的核心創新:把實驗當作一棵搜尋樹——每個節點是一個程式變體, 多個 agent 同時探索不同分支,失敗剪枝、成功延伸,一路挖到有洞見的結果。
// parallel · branching
Tree Search Loop · 四步推進一個實驗世代
01
Root Program
起始程式
從實驗設計產出的程式骨架開始——包含 training loop、資料、評估指標的完整可跑 baseline。
02
Branch & Mutate
分支變異
多個 agent 同時產出變體:改架構、換 loss、加 regularization。每個分支是一個候選解。
03
Execute & Observe
執行觀察
分支實際跑起來,蒐集 loss 曲線、評估指標、錯誤訊息,必要時用 vision 看圖判讀結果。
04
Prune & Extend
剪枝延伸
失敗的分支剪掉、有趣的結果延伸下一層——整棵樹往「有洞見的方向」長,而不是盲目 grid search。
KEY INSIGHT · Tree search + 多 agent 平行,讓實驗探索同時擁有 廣度(多分支)與 深度(延伸成功路徑)——這是 v2 能產出「被 reviewer 認可」論文的關鍵。
04/05
— Paper Writing
論文撰寫 · LaTeX 直出
實驗跑完以後 agent 把結果組裝成一篇完整的 LaTeX 論文, 包含圖表、公式、引用,甚至會用視覺模型檢查自己畫的圖是否清楚。
// latex-native
W·1
Structure Scaffold
章節骨架
Abstract / Intro / Related Work / Method / Experiments / Discussion / Conclusion——一篇 ML 論文的標準骨架先架好。
W·2
Figure Generation
圖表繪製
用 matplotlib 繪製結果圖,vision 模型檢查可讀性:標籤是否清晰、對比是否充足、是否誤導。
W·3
Citation Integration
引用整合
把階段二蒐集到的文獻嵌進 Related Work 與 Method,產生 BibTeX——這一步也是幻覺重災區。
W·4
Vision-Based Revision
視覺回饋修訂
用 vision 模型「看」渲染好的 PDF,檢查排版、圖片、表格,回寫修正——像人類改稿一樣迭代。
W·5
LaTeX Compile Loop
編譯迴圈
編譯錯誤自動修復、引用缺漏自動補上,最終產出可直接投稿的 PDF 檔案。
ICLR 2025 · ICBINB Workshop
submission · unedited AI output
Compositional Regularization: Unexpected Obstacles in Enhancing Neural Network Generalization
— authored end-to-end by The AI Scientist v2 —
ACCEPTED
05/05
— Automated Review
自動審稿 · 品質把關
AI Scientist 不只寫論文,還內建一個 Automated Reviewer—— 給稿件評分、寫 review、模擬 NeurIPS / ICLR 的審稿表格。它自己就是第一道把關。
// closing-the-loop

ICBINB Workshop 同儕審查

ICLR 2025 · Real Human Reviewers
Reviewer 1
6
Reviewer 2
7
Reviewer 3
6
Average
6.33

Automated Reviewer

Meta · Benchmark
Balanced Accuracy 分辨接受 vs 拒絕論文
69%
F1-Score 超越 NeurIPS 2021 人審一致性
>Human
Knowledge Cutoff 能評估訓練截止後的新論文
OOD· pass
Scaling Law 模型越強 → 論文品質越高
↑↑

但 AI Scientist 還不是完美的研究者

Known Limitations · 作者團隊自己寫出來的警告

想法仍偏淺

產出的研究假設有時「naive or underdeveloped」,缺乏真正原創、打破典範的洞見——這是 foundation model 本身的天花板。

方法論深度不足

面對 rigorous methodology 與複雜的程式實作(多 GPU、複雜資料管線)仍力有未逮,容易繞過難點用簡化版跑結果。

幻覺 / 引用錯誤

會出現假引用、錯圖、或重複使用的 figure——所以作者團隊主動撤回被接受的論文、對所有 AI 論文加上浮水印。

Thesis · 它代表的意義

研究×工序化×Scaling

01

研究可被工序化

「生成想法 → 實驗 → 寫論文 → 審稿」這條鏈路可以被拆解、模組化、benchmark。每一站都能獨立優化。

+
02

Scaling Law 延伸到科學

模型越強,論文品質越高——這意味著 foundation model 的進步會直接轉譯成「科學產出的進步」。

=
03

研究社群得重新思考

當 AI 能寫出通過 peer review 的論文,社群需要新的規範:透明性、浮水印、歸屬認定。作者團隊已主動示範。

Further Reading 延伸閱讀