Head-to-Head DOC—LLM.VS/01 REV 2026.04 · a

— Frontier Model Showdown · April 2026 —

GPT-5.5vsClaude Opus 4.7

Compiled by 2026·04·25 via Mashable

figure 00 · thesis Bench
vs
Code.

OpenAI 在 2026 年 4 月 23 日 推出 GPT-5.5，距離 Anthropic 發表 Claude Opus 4.7 才一週——兩家旗艦同時上線，Mashable 拉了 8 個 benchmark、Arena 排行榜、定價、功能表攤開比較。

結果耐人尋味：GPT-5.5 在多數 benchmark 領先（5 勝 3 負），但 Opus 4.7 在 SWE-Bench Pro、HLE-with-tools、GPQA Diamond 拿下三場關鍵勝利——這些剛好是「真實開發」與「博士級推理」的指標。

Mashable 的最終裁決也很乾脆：日常知識工作選 GPT-5.5、進階與 agentic coding 選 Opus 4.7。換句話說，沒有單一贏家——這是一場「分用途」的勝負。

Legend · 圖例

GPT-5.5
Claude 4.7
Structural
Highlight

For Everyday Pro Work

GPT-5.5 勝出

ChatGPT 周邊功能更廣——image gen、shopping、第三方整合更完整。多項 benchmark 領先，1M 上下文窗口、$30/1M output。

⇄

For Advanced & Agentic Coding

Opus 4.7 勝出

SWE-Bench Pro 領先 5.7 分，加上 OpenClaw 收購帶來的 agentic 能力。 API 便宜一截：$25/1M output，Pro/Max 用戶皆可用。

01^/05

— Public Leaderboards

三大排行榜 · 各家有各家的山頭

Benchmark 數字之外，第三方排行榜給的是另一個維度—— 實測使用者、合成指數、驗證測試，三套標準各自有偏好。

// third-party

→ Arena Leaderboard

使用者實測對戰

♛ Claude Opus 4.7 Thinking

基於匿名用戶兩兩對戰投票。Anthropic 模型目前霸佔 前四名，4.7 領先 4.6。未公開的 Claude Mythos 據官方說法表現更高一截。

→ Epoch Capabilities Index

合成能力指數 ECI

♛ GPT-5.4 Pro

ECI 把多個 benchmark 整合成單一分數。目前由 GPT-5.4 Pro 領先，第二三名是 Gemini 3.1 Pro 與 GPT-5.4。

→ ARC Prize

驗證型推理測試

♛ GPT-5.5 (High)

ARC-AGI 系列的官方驗證榜——GPT-5.5 在 ARC-AGI-1 與 ARC-AGI-2 都贏過 Opus 4.7，後者落後 ARC-AGI-2 達 15 分（83.3 vs 68.3）。

02^/05

— Benchmark Showdown

八項指標對打 · GPT 5 勝 3 負

OpenAI 與 Anthropic 各自的官方數字攤開比較—— 綜合來看 GPT-5.5 略勝，但 Claude 在「實作型」題目上保留優勢。

// official-numbers

Benchmark

Score Bars

GPT-5.5

Opus 4.7

Winner

SWE-Bench Pro 真實 GitHub 軟體工程任務

GPT 58.6%

CLAUDE 64.3%

58.6

64.3

Claude

Terminal-Bench 2.0 終端機操作任務

GPT 82.7%

CLAUDE 69.4%

82.7

69.4

GPT

Humanity's Last Exam 跨領域博士級題目

GPT 40.6%

CLAUDE 31.2%

40.6

31.2*

GPT

HLE (with tools) HLE 開放工具版本

GPT 52.2%

CLAUDE 54.7%

52.2

54.7

Claude

BrowseComp 網頁瀏覽 / 資訊檢索

GPT 84.4%

CLAUDE 79.3%

84.4

79.3

GPT

GPQA Diamond 博士級科學選擇題

GPT 93.6%

CLAUDE 94.2%

93.6

94.2

Claude

ARC-AGI-1 (Verified) 抽象視覺推理

GPT 94.5%

CLAUDE 92%

94.5

92.0

GPT

ARC-AGI-2 (Verified) 進階版抽象推理

GPT 83.3%

CLAUDE 68.3%

83.3

68.3

GPT

GPT-5.5 wins

Opus 4.7 wins

* 註：HLE 引用 Artificial Analysis 第三方驗證版本。 Anthropic 自報的 Opus 4.7 HLE 分數為 46.9%，但本表採用統一外部來源以維持可比性。 ARC 資料來自 Arc Prize 官方驗證榜。

03^/05

— Pricing & Availability

定價與取用 · API 與訂閱

OpenAI 把 API 漲價但號稱更省 token，Anthropic 維持較低 output 單價。兩家都把旗艦鎖在付費等級——免費用戶請等下一代。

// paid-tier-only

GPT-5.5

OpenAI · 2026.04.23

API · Input每百萬輸入 token

$5/1M

API · Output每百萬輸出 token

$30/1M

Context Window單次最大上下文

1Mtokens

Variants產品線

3· Pro/Thinking/Std

ChatGPT Plus ChatGPT Pro Business Enterprise Codex

Claude Opus 4.7

Anthropic · 2026.04.16

API · Input每百萬輸入 token

$5/1M

API · Output每百萬輸出 token

$25/1M

Honesty Rate官方誠實率指標

92%

Variants產品線

2· Std/Thinking

Claude Pro Claude Max API Claude Code

04^/05

— Feature Set

功能矩陣 · 各擅勝場

兩個聊天平台的核心功能高度重疊：研究、寫作、coding、日常工作都能用。差異在「邊緣能力」——影像生成、商城整合、agentic 自動化。

// edges-only

GPT-5.5 / ChatGPT

Strengths · 強項

✓

ChatGPT Images 2.0

內建影像生成模型，可直接從 GPT-5.5 對話呼叫——複雜互動式資料視覺化也是強項。
✓

App / Shopping 整合

第三方 App、購物、外部服務的整合更廣，日常工作流串接最完整。
✓

Agentic Coding

OpenAI 官方強調 GPT-5.5 在 agentic coding、computer use 與知識工作上的提升。
✓

Early Scientific Research

初階科學研究是 OpenAI 自報的進步重點之一，配合 1M context 適合長文件。
✓

Codex

OpenAI 自家 coding 平台，可直接呼叫 GPT-5.5 / 5.5 Pro / 5.5 Thinking 三線模型。

結論：「日常知識工作」最廣的選擇——ChatGPT 的功能矩陣比 Claude 大一圈。

Opus 4.7 / Claude

Strengths · 強項

✓

Advanced Coding

SWE-Bench Pro 領先 5.7 分——真實軟體工程任務上仍是主流選擇。
✓

Agentic 能力（OpenClaw）

近期收購 OpenClaw 後，agentic 自動化是 Anthropic 的差異化優勢。
✓

Visual Intelligence

圖像理解、文件解析、視覺推理是 4.7 自報的提升重點——適合 PDF、圖表、設計稿。
✓

Claude Design

提供資料視覺化、圖表、簡報——但不做完整影像生成（與 ChatGPT Images 2.0 互補）。
✓

Spotify · Uber · 第三方 App

近期擴張的 App 連結器——Claude 的整合生態正在補齊。

結論：「進階 / agentic coding」最強的選擇——SWE-Bench Pro 與 OpenClaw 是雙重底氣。

05^/05

— Verdict by Use Case

分用途裁決 · 你該怎麼選

把對比拆成具體場景——不同使用情境下，哪個模型更適合？這是 Mashable 文章最實用的部分。

// pick-by-task

Use Case 01日常知識工作

需要研究、寫作、整理資料、跨平台工具——ChatGPT 周邊功能更廣，影像生成、購物、整合更完整。

GPT-5.5Pick

Use Case 02進階 / Agentic Coding

真實軟體工程、長期 agent 任務、自動化開發流程——Opus 4.7 的 SWE-Bench Pro + OpenClaw 是直接答案。

Opus 4.7Pick

Use Case 03影像 / 視覺生成

需要直接產出圖、做 marketing 素材、互動視覺化——ChatGPT Images 2.0 提供完整影像生成能力。

GPT-5.5Pick

Use Case 04抽象推理 / ARC 類題

ARC-AGI 系列驗證榜上 GPT-5.5 領先明顯，ARC-AGI-2 領先達 15 分——抽象視覺推理仍是 OpenAI 強項。

GPT-5.5Pick

Use Case 05科學推理 / 博士題

GPQA Diamond Opus 險勝（94.2 vs 93.6），HLE-with-tools 也是 Opus 領先——「給工具就贏」是 Claude 的特徵。

Opus 4.7Pick

Use Case 06長文件處理

兩家都支援大上下文——GPT-5.5 公開 1M context，且號稱 token-efficient。長文件閱讀首選 GPT。

GPT-5.5Pick

Use Case 07API 成本敏感

Output 單價：GPT-5.5 $30/M vs Opus 4.7 $25/M——Opus 便宜 17%，大量輸出場景優勢明顯。

Opus 4.7Pick

Final Take · 結語

GPT-5.5 + Opus 4.7 = 你的 AI 工具箱

→ Bench Champion

GPT-5.5 是「綜合分」更高的那個

8 個 benchmark 拿 5 場、ARC 系列領先、ChatGPT 周邊功能矩陣更廣。如果你只想付一份訂閱、處理日常知識工作——選 GPT-5.5 不會錯。

→ Code Champion

Opus 4.7 是「真實 coding」更強的那個

SWE-Bench Pro 領先、HLE-with-tools 領先、加上 OpenClaw 的 agentic 護城河，以及 17% 更便宜的 output 單價——要做開發、做 agent，這個是答案。

◉ Further Reading 延伸閱讀

→ 01

Token Economics

Human Middleware 之死

API 帳單怎麼讀懂——「高 token 用量」不是浪費，是新時代的成長指標。

→

→ 02

Another Direction

1B 模型時代

比規模、比 benchmark 之外——Karpathy 提出的另一條路：精煉模型 + 外部記憶。

→

→ 03

Claude Differentiator

Managed Agents Memory

為什麼 Claude 在 agentic 工作上仍有優勢——OpenClaw + Managed Memory 的組合拳。

→

Legend · 圖例

GPT-5.5 勝出

Opus 4.7 勝出

使用者實測對戰

合成能力指數 ECI

驗證型推理測試

GPT-5.5 / ChatGPT

ChatGPT Images 2.0

App / Shopping 整合

Agentic Coding

Early Scientific Research

Codex

Opus 4.7 / Claude

Advanced Coding

Agentic 能力（OpenClaw）

Visual Intelligence

Claude Design

Spotify · Uber · 第三方 App

GPT-5.5 + Opus 4.7 = 你的 AI 工具箱

GPT-5.5 是「綜合分」更高的那個

Opus 4.7 是「真實 coding」更強的那個

Human Middleware 之死

1B 模型時代

Managed Agents Memory