每個 PM 都該寫得出 10 個好 Eval
現代 PM 的「技術技能」不是會寫 Python——是會寫 eval。如果你不能具體定義並度量使用者體驗的「Golden Path」,你不是在管產品,你只是在用 prompt 賭博。
傳統 PM 的劇本正在被現實撕碎。當大多數科技公司還困在「Waterfall–Agile 混血」、被 6–12 個月 roadmap 與排不完的 alignment 會議窒息時,Anthropic 已經在另一個時鐘運轉。
Claude Code & Co-work 產品負責人 Cat Wu 揭露:他們把 feature cycle 從「月」壓縮到「週」,常常壓到單一一天。對現代 PM 而言,這不是趨勢,是存在性威脅——「協調階級」(每天更 Jira、寫 PRD 寫到 launch 時功能已過時)正在絕跡。
但角色不是死亡,是升級成更技術、更槓桿、更「無形」。本文拆解 Anthropic 出貨文化的 5 個核心機制——從殺死 roadmap、Eval-Driven PM、Eating the Harness,到 Just Do Things 的工作哲學。
一個準確率 95% 的功能,不是自動化——是一份「每次都需要人盯著」的雜事。剩下的 5% 失敗率,意味著人類得守在迴圈裡確認每一次輸出。
要讓「一個人同時管理 50 個 Claude」這種工作流規模化,那 5% 錯誤率就是斷裂點。從 95% 進化到 100% 的最後一哩,是 PM 的真功夫。
不只是寫 spec——能 sense the effort,本能判斷一個功能是 1 小時還是 1 週。免去無效辯論。
不只是實作——能判斷「這該寫嗎、誰會用、值不值」,把工程資源投在真正會被使用的地方。
用 Claude Code 自建客製化 Salesforce 連動 web app,幾秒生出對的 deck,而不是花幾小時。
模型記不住任務、會忘步驟——UI 加上 to-do、進度追蹤等「拐杖功能」幫它撐住。
模型自己會追蹤、會分步驟——拐杖功能變成 legacy 殘留,使用者甚至不會用到。
把拐杖拿掉,介面回到最精簡——這才是 Eating the Harness:模型吃掉自己過去需要的支撐。
在這種環境裡,「等對齊完才動手」就是輸——所以 Anthropic 的 PM 必須具備真正的 agency:自己判斷、自己起手、自己對結果負責。模型還寫不了的最後一塊,就在這裡:
不要停在「90% 的 cool prototype」。把最後一哩走完——做到使用者真的能脫手。這才解放「人類能動性」去做別的事。
每個 PM 都該寫得出 10 個好 eval。不能量化的 Golden Path 不算管理產品——只是用 prompt 賭博。
P0 變 P0000 的世界裡,對齊完才動手就是輸。自己判斷、自己起手、自己對結果負責——這才是現代 PM 的存在意義。
把 Anthropic 出貨機器的邏輯放大成整個組織——AI 是公司的 OS,token 取代 headcount,10,000× engineer。
寫得快還要寫得對——89k★ 的紀律手冊,告訴你怎麼把「Just Do Things」做得不出包。
把 Eval-Driven 與「無形 PM」需要的紀律拆解成可重複工作流——idea-refine → spec → TDD → review。