Head-to-Head DOC—LLM.VS/01 REV 2026.04 · a
— Frontier Model Showdown · April 2026 —

GPT-5.5vsClaude Opus 4.7

Compiled by 2026·04·25 via Mashable
figure 00 · thesis Bench
vs
Code.

OpenAI 在 2026 年 4 月 23 日 推出 GPT-5.5,距離 Anthropic 發表 Claude Opus 4.7 才一週——兩家旗艦同時上線,Mashable 拉了 8 個 benchmark、Arena 排行榜、定價、功能表攤開比較。

結果耐人尋味:GPT-5.5 在多數 benchmark 領先(5 勝 3 負),但 Opus 4.7 在 SWE-Bench Pro、HLE-with-tools、GPQA Diamond 拿下三場關鍵勝利——這些剛好是「真實開發」與「博士級推理」的指標。

Mashable 的最終裁決也很乾脆:日常知識工作選 GPT-5.5、進階與 agentic coding 選 Opus 4.7。換句話說,沒有單一贏家——這是一場「分用途」的勝負。

Legend · 圖例

  • GPT-5.5
  • Claude 4.7
  • Structural
  • Highlight
For Everyday Pro Work

GPT-5.5 勝出

ChatGPT 周邊功能更廣——image gen、shopping、第三方整合更完整。 多項 benchmark 領先,1M 上下文窗口、$30/1M output。

For Advanced & Agentic Coding

Opus 4.7 勝出

SWE-Bench Pro 領先 5.7 分,加上 OpenClaw 收購帶來的 agentic 能力。 API 便宜一截:$25/1M output,Pro/Max 用戶皆可用。

01/05
— Public Leaderboards
三大排行榜 · 各家有各家的山頭
Benchmark 數字之外,第三方排行榜給的是另一個維度—— 實測使用者、合成指數、驗證測試,三套標準各自有偏好。
// third-party
→ Arena Leaderboard

使用者實測對戰

Claude Opus 4.7 Thinking

基於匿名用戶兩兩對戰投票。Anthropic 模型目前霸佔 前四名,4.7 領先 4.6。 未公開的 Claude Mythos 據官方說法表現更高一截。

→ Epoch Capabilities Index

合成能力指數 ECI

GPT-5.4 Pro

ECI 把多個 benchmark 整合成單一分數。 目前由 GPT-5.4 Pro 領先,第二三名是 Gemini 3.1 Pro 與 GPT-5.4。

→ ARC Prize

驗證型推理測試

GPT-5.5 (High)

ARC-AGI 系列的官方驗證榜——GPT-5.5 在 ARC-AGI-1 與 ARC-AGI-2 都贏過 Opus 4.7, 後者落後 ARC-AGI-2 達 15 分(83.3 vs 68.3)。

02/05
— Benchmark Showdown
八項指標對打 · GPT 5 勝 3 負
OpenAI 與 Anthropic 各自的官方數字攤開比較—— 綜合來看 GPT-5.5 略勝,但 Claude 在「實作型」題目上保留優勢。
// official-numbers
Benchmark
Score Bars
GPT-5.5
Opus 4.7
Winner
SWE-Bench Pro 真實 GitHub 軟體工程任務
GPT 58.6%
CLAUDE 64.3%
58.6
64.3
Claude
Terminal-Bench 2.0 終端機操作任務
GPT 82.7%
CLAUDE 69.4%
82.7
69.4
GPT
Humanity's Last Exam 跨領域博士級題目
GPT 40.6%
CLAUDE 31.2%
40.6
31.2*
GPT
HLE (with tools) HLE 開放工具版本
GPT 52.2%
CLAUDE 54.7%
52.2
54.7
Claude
BrowseComp 網頁瀏覽 / 資訊檢索
GPT 84.4%
CLAUDE 79.3%
84.4
79.3
GPT
GPQA Diamond 博士級科學選擇題
GPT 93.6%
CLAUDE 94.2%
93.6
94.2
Claude
ARC-AGI-1 (Verified) 抽象視覺推理
GPT 94.5%
CLAUDE 92%
94.5
92.0
GPT
ARC-AGI-2 (Verified) 進階版抽象推理
GPT 83.3%
CLAUDE 68.3%
83.3
68.3
GPT
5
GPT-5.5 wins
3
Opus 4.7 wins
* 註:HLE 引用 Artificial Analysis 第三方驗證版本。 Anthropic 自報的 Opus 4.7 HLE 分數為 46.9%,但本表採用統一外部來源以維持可比性。 ARC 資料來自 Arc Prize 官方驗證榜。
03/05
— Pricing & Availability
定價與取用 · API 與訂閱
OpenAI 把 API 漲價但號稱更省 token,Anthropic 維持較低 output 單價。 兩家都把旗艦鎖在付費等級——免費用戶請等下一代。
// paid-tier-only
GPT-5.5
OpenAI · 2026.04.23
API · Input每百萬輸入 token
$5/1M
API · Output每百萬輸出 token
$30/1M
Context Window單次最大上下文
1Mtokens
Variants產品線
3· Pro/Thinking/Std
ChatGPT Plus ChatGPT Pro Business Enterprise Codex
Claude Opus 4.7
Anthropic · 2026.04.16
API · Input每百萬輸入 token
$5/1M
API · Output每百萬輸出 token
$25/1M
Honesty Rate官方誠實率指標
92%
Variants產品線
2· Std/Thinking
Claude Pro Claude Max API Claude Code
04/05
— Feature Set
功能矩陣 · 各擅勝場
兩個聊天平台的核心功能高度重疊:研究、寫作、coding、日常工作都能用。 差異在「邊緣能力」——影像生成、商城整合、agentic 自動化。
// edges-only
G

GPT-5.5 / ChatGPT

Strengths · 強項
  • ChatGPT Images 2.0

    內建影像生成模型,可直接從 GPT-5.5 對話呼叫——複雜互動式資料視覺化也是強項。

  • App / Shopping 整合

    第三方 App、購物、外部服務的整合更廣,日常工作流串接最完整。

  • Agentic Coding

    OpenAI 官方強調 GPT-5.5 在 agentic coding、computer use 與知識工作上的提升。

  • Early Scientific Research

    初階科學研究是 OpenAI 自報的進步重點之一,配合 1M context 適合長文件。

  • Codex

    OpenAI 自家 coding 平台,可直接呼叫 GPT-5.5 / 5.5 Pro / 5.5 Thinking 三線模型。

結論:「日常知識工作」最廣的選擇——ChatGPT 的功能矩陣比 Claude 大一圈。
C

Opus 4.7 / Claude

Strengths · 強項
  • Advanced Coding

    SWE-Bench Pro 領先 5.7 分——真實軟體工程任務上仍是主流選擇。

  • Agentic 能力(OpenClaw)

    近期收購 OpenClaw 後,agentic 自動化是 Anthropic 的差異化優勢。

  • Visual Intelligence

    圖像理解、文件解析、視覺推理是 4.7 自報的提升重點——適合 PDF、圖表、設計稿。

  • Claude Design

    提供資料視覺化、圖表、簡報——但不做完整影像生成(與 ChatGPT Images 2.0 互補)。

  • Spotify · Uber · 第三方 App

    近期擴張的 App 連結器——Claude 的整合生態正在補齊。

結論:「進階 / agentic coding」最強的選擇——SWE-Bench Pro 與 OpenClaw 是雙重底氣。
05/05
— Verdict by Use Case
分用途裁決 · 你該怎麼選
把對比拆成具體場景——不同使用情境下,哪個模型更適合? 這是 Mashable 文章最實用的部分。
// pick-by-task
Use Case 01日常知識工作
需要研究、寫作、整理資料、跨平台工具——ChatGPT 周邊功能更廣,影像生成、購物、整合更完整。
GPT-5.5Pick
Use Case 02進階 / Agentic Coding
真實軟體工程、長期 agent 任務、自動化開發流程——Opus 4.7 的 SWE-Bench Pro + OpenClaw 是直接答案。
Opus 4.7Pick
Use Case 03影像 / 視覺生成
需要直接產出圖、做 marketing 素材、互動視覺化——ChatGPT Images 2.0 提供完整影像生成能力。
GPT-5.5Pick
Use Case 04抽象推理 / ARC 類題
ARC-AGI 系列驗證榜上 GPT-5.5 領先明顯,ARC-AGI-2 領先達 15 分——抽象視覺推理仍是 OpenAI 強項。
GPT-5.5Pick
Use Case 05科學推理 / 博士題
GPQA Diamond Opus 險勝(94.2 vs 93.6),HLE-with-tools 也是 Opus 領先——「給工具就贏」是 Claude 的特徵。
Opus 4.7Pick
Use Case 06長文件處理
兩家都支援大上下文——GPT-5.5 公開 1M context,且號稱 token-efficient。長文件閱讀首選 GPT。
GPT-5.5Pick
Use Case 07API 成本敏感
Output 單價:GPT-5.5 $30/M vs Opus 4.7 $25/M——Opus 便宜 17%,大量輸出場景優勢明顯。
Opus 4.7Pick
Final Take · 結語

GPT-5.5 + Opus 4.7 = 你的 AI 工具箱

→ Bench Champion

GPT-5.5 是「綜合分」更高的那個

8 個 benchmark 拿 5 場、ARC 系列領先、ChatGPT 周邊功能矩陣更廣。 如果你只想付一份訂閱、處理日常知識工作——選 GPT-5.5 不會錯。

+
→ Code Champion

Opus 4.7 是「真實 coding」更強的那個

SWE-Bench Pro 領先、HLE-with-tools 領先、加上 OpenClaw 的 agentic 護城河, 以及 17% 更便宜的 output 單價——要做開發、做 agent,這個是答案。

Further Reading 延伸閱讀