Field Report DOC—AI.SCI/NATURE REV 2026.04 · a

— The AI Scientist · Now in Nature —

AI Scientist/會做研究的 Agent

Compiled by 2026·04·25 Nature · 2026

figure 00 · thesis Ideate,
Experiment &
Peer Review.

2026 年 3 月，Sakana AI 與 UBC、Vector Institute、Oxford 的研究團隊在 Nature 發表了 The AI Scientist——一個能自主執行整個機器學習研究生命週期的 agent： 生成想法、搜文獻、設計實驗、寫程式、跑實驗、畫圖、寫論文、審稿，全部自動。

v2 版本的突破更具象徵意義：它產出的論文（未經人類修改）被 ICLR 2025 ICBINB Workshop 以匿名 peer review 接受——平均分 6.33、勝過 55% 人類作者論文。這是第一篇通過嚴格人類同儕審查的全 AI 生成論文。

這不是一個寫 prompt 的玩具。它是一條完整的研究產線，每一站都可以被 benchmark、被 scaling。模型越強，產出越好——研究本身，開始變成「可規模化」的工序。

Legend · 圖例

Structural Frame
Research Flow
Score / Signal
Nature / Milestone

01^/05

— Idea Generation

想法生成 · 研究腦洞

研究從哪裡開始？AI Scientist 接收一個寬泛的研究方向（例如 diffusion models、LLM reasoning），再透過多輪迭代生出多個具體、可執行、具新穎性的研究假設。

// novelty-driven

i·01

主題 Seed

Research Direction

從人類研究者提供的大方向起跳——nanoGPT、diffusion、grokking、attention 機制等，都是試過的種子題目。

i·02

批量發想

Brainstorm Loop

一次產出多個候選假設，模型在自我對話中迭代、組合、拒絕，模擬 brainstorming 的多樣性。

i·03

新穎性檢查

Novelty Filter

比對既有文獻與實驗紀錄，過濾掉已被做過的想法——讓後續實驗資源投入真正的空白領域。

i·04

可行性評估

Feasibility Score

評估每個假設在當前計算預算、工具能力、時間尺度內的可實現性——不是所有好想法都跑得起來。

02^/05

— Literature & Design

文獻搜尋 · 實驗設計

想法定了以後，agent 去找相關論文、消化它們，再把假設轉成可執行的 Python 實驗—— 這一步決定了後面所有輸出的品質。

// ground-in-prior-work

Literature Search 文獻檢索

L·01 Semantic Scholar 相關論文檢索 query expansion · citation graph

L·02 Abstract Parsing 摘要理解 extract: method / dataset / metric

L·03 Gap Analysis 研究空白定位 what has / has not been tried

L·04 Prior-Art Check 防止重工 novelty validation

Experiment Design 實驗設計

D·01 Hypothesis Spec 假設形式化 testable · measurable

D·02 Code Scaffolding 程式骨架 modify starter template (e.g. nanoGPT)

D·03 Metric Selection 評估指標 loss · accuracy · ablation targets

D·04 Budget Planning 計算預算 runs × epochs × GPU-hours

03^/05

— Parallelized Agentic Tree Search

平行化實驗 · 樹狀搜尋

v2 的核心創新：把實驗當作一棵搜尋樹——每個節點是一個程式變體，多個 agent 同時探索不同分支，失敗剪枝、成功延伸，一路挖到有洞見的結果。

// parallel · branching

Tree Search Loop · 四步推進一個實驗世代

Root Program

起始程式

從實驗設計產出的程式骨架開始——包含 training loop、資料、評估指標的完整可跑 baseline。

Branch & Mutate

分支變異

多個 agent 同時產出變體：改架構、換 loss、加 regularization。每個分支是一個候選解。

Execute & Observe

執行觀察

分支實際跑起來，蒐集 loss 曲線、評估指標、錯誤訊息，必要時用 vision 看圖判讀結果。

Prune & Extend

剪枝延伸

失敗的分支剪掉、有趣的結果延伸下一層——整棵樹往「有洞見的方向」長，而不是盲目 grid search。

KEY INSIGHT · Tree search + 多 agent 平行，讓實驗探索同時擁有廣度（多分支）與深度（延伸成功路徑）——這是 v2 能產出「被 reviewer 認可」論文的關鍵。

04^/05

— Paper Writing

論文撰寫 · LaTeX 直出

實驗跑完以後 agent 把結果組裝成一篇完整的 LaTeX 論文，包含圖表、公式、引用，甚至會用視覺模型檢查自己畫的圖是否清楚。

// latex-native

W·1

Structure Scaffold

章節骨架

Abstract / Intro / Related Work / Method / Experiments / Discussion / Conclusion——一篇 ML 論文的標準骨架先架好。

W·2

Figure Generation

圖表繪製

用 matplotlib 繪製結果圖，vision 模型檢查可讀性：標籤是否清晰、對比是否充足、是否誤導。

W·3

Citation Integration

引用整合

把階段二蒐集到的文獻嵌進 Related Work 與 Method，產生 BibTeX——這一步也是幻覺重災區。

W·4

Vision-Based Revision

視覺回饋修訂

用 vision 模型「看」渲染好的 PDF，檢查排版、圖片、表格，回寫修正——像人類改稿一樣迭代。

W·5

LaTeX Compile Loop

編譯迴圈

編譯錯誤自動修復、引用缺漏自動補上，最終產出可直接投稿的 PDF 檔案。

ICLR 2025 · ICBINB Workshop

submission · unedited AI output

Compositional Regularization: Unexpected Obstacles in Enhancing Neural Network Generalization

— authored end-to-end by The AI Scientist v2 —

ACCEPTED

05^/05

— Automated Review

自動審稿 · 品質把關

AI Scientist 不只寫論文，還內建一個 Automated Reviewer—— 給稿件評分、寫 review、模擬 NeurIPS / ICLR 的審稿表格。它自己就是第一道把關。

// closing-the-loop

ICBINB Workshop 同儕審查

ICLR 2025 · Real Human Reviewers

Reviewer 1

Reviewer 2

Reviewer 3

Average

6.33

Automated Reviewer

Meta · Benchmark

Balanced Accuracy 分辨接受 vs 拒絕論文

69%

F1-Score 超越 NeurIPS 2021 人審一致性

>Human

Knowledge Cutoff 能評估訓練截止後的新論文

OOD· pass

Scaling Law 模型越強 → 論文品質越高

↑↑

但 AI Scientist 還不是完美的研究者

Known Limitations · 作者團隊自己寫出來的警告

想法仍偏淺

產出的研究假設有時「naive or underdeveloped」，缺乏真正原創、打破典範的洞見——這是 foundation model 本身的天花板。

方法論深度不足

面對 rigorous methodology 與複雜的程式實作（多 GPU、複雜資料管線）仍力有未逮，容易繞過難點用簡化版跑結果。

幻覺 / 引用錯誤

會出現假引用、錯圖、或重複使用的 figure——所以作者團隊主動撤回被接受的論文、對所有 AI 論文加上浮水印。

Thesis · 它代表的意義

研究×工序化×Scaling

研究可被工序化

「生成想法 → 實驗 → 寫論文 → 審稿」這條鏈路可以被拆解、模組化、benchmark。每一站都能獨立優化。

Scaling Law 延伸到科學

模型越強，論文品質越高——這意味著 foundation model 的進步會直接轉譯成「科學產出的進步」。

研究社群得重新思考

當 AI 能寫出通過 peer review 的論文，社群需要新的規範：透明性、浮水印、歸屬認定。作者團隊已主動示範。

→ OFFICIAL POST

Sakana AI · Nature 公告

sakana.ai/ai-scientist-nature

團隊完整說明 AI Scientist v1 / v2 的技術路線、實驗結果與社群意義。

→

→ NATURE PAPER

Nature 原始論文

nature.com · s41586-026-10265-5

Open-access 發表版本，完整技術細節、方法論、附錄實驗設計。

→

→ SOURCE CODE

AI Scientist v2 · GitHub

github.com/SakanaAI/AI-Scientist-v2

開源實作——tree search、paper writer、automated reviewer 的完整程式碼。

→

◉ Further Reading 延伸閱讀

→ 01

Smaller is Possible

1B 模型時代

Karpathy 的論點：精煉模型才是未來——AI Scientist 用小核心 + agent 系統做研究是這條路的早期證據。

→

→ 02

10,000× in Research

Human Middleware 之死

一個 builder + agent 系統 = 部門級產能，這個論點放到研究領域就是 AI Scientist。

→

→ 03

Discipline = Output

Agent Skills 工作流

從 idea-refine、spec、TDD、review 到 release——同一套工程紀律可套到自動化研究流程。

→