問題#
AI 原生產品組織的新瓶頸是什麼:品味、evals、dogfooding,還是問責制?
簡短答案#
瓶頸是可問責的品味與速度。
品味、evals、dogfooding 與問責制並非互相競爭的答案,而是一條管線:
- Dogfooding as Product Discipline 建立親身體驗的產品感。
- 品味在實作變便宜之後,決定什麼值得建造(Engineer PM Convergence)。
- Evals as Product Spec 把品味轉成可重複的完成定義。
- Human-AI Accountability Redesign 讓具名的人類或團隊擁有產出、審查邊界與後果。
在小團隊/產品表面規模,瓶頸看起來像品味。在功能回歸規模,看起來像 evals。在管理/組織規模,則變成問責制——因為產出量成長比人類監督容量更快。Dogfooding 不是瓶頸;它是訓練迴圈,避免品味退化成儀表板戲劇。
為何這份選單是錯的#
那些具名頁面描述的是同一約束的不同層次,而非四個獨立約束。
AI Native Product Cadence 指出模型不是主要瓶頸:Cat Wu 將 6 個月→1 個月→有時 1 天的節奏,多半歸因於流程、期望、research-preview 品牌、使命作為決策仲裁、發布室壓縮、更輕量的 PRD,以及具備產品品味的工程師交付。這移除了交接摩擦。
Engineer PM Convergence 點出交接縮小之後出現的東西:程式碼更便宜,所以「決定要寫什麼」升值。稀缺技能是產品品味,與職稱無關。工程師、PM、設計師、經理、資料科學家與研究員都收斂到同一活動:選擇、塑造、出貨、判斷。
Dogfooding as Product Discipline 解釋品味從何而來。產品感不是魔法,而是透過直接使用上線產品與接觸真實使用者建立:Anthropic 的「ant food」、午餐時段的模型 vibe-check、創辦人進客戶 Slack 的行為。不用產品的人只能退回指標、儀表板與 PowerPoint。
Evals as Product Spec 解釋品味如何在規模下存活。Evals 不是事後 QA;它們是產品規格的可執行形式。好的 eval 捕捉原本會在審查中反覆爭論的判斷。這就是為何「十個優秀 evals」比一大堆弱檢查更重要:eval 必須揭示哪裡壞了,並編碼「好」的意義。
Human-AI Accountability Redesign 解釋為何即使品味與 evals 都很好,在組織規模仍不夠。產出量擴張,人類審查容量卻不會。若問責單位與人類實際能審的範圍不符,組織會得到更快、無主的產出、責任擴散,以及更弱的錯誤捕捉。
瓶頸堆疊#
| 層級 | 瓶頸症狀 | 持久機制 | 缺失時的失敗 |
|---|---|---|---|
| 節奏 | 出貨仍要一季,而 agents 讓實作變便宜 | AI Native Product Cadence:移除交接、以使命仲裁、保持發布機制常駐就緒 | 流程吸收模型的生產力增益 |
| 品味 | 團隊什麼都能做,卻選不出什麼重要 | Engineer PM Convergence:高脈絡通才與產品判斷 | 快速漂移、功能重疊、範圍反覆變動 |
| 品味取得 | 產品決策來自儀表板而非親身接觸 | Dogfooding as Product Discipline 與 Managers as ICs | 產品感腐化;經理與 PM 不再感受產品 |
| 品味編碼 | 好判斷停留在默會層面,無法回歸測試 | Evals as Product Spec | 靠直覺、軼事、反覆辯論、沉默回歸 |
| 所有權 | 產出量超過審查容量 | Human-AI Accountability Redesign:決策權、升級、以監督品質為核心的績效管理 | 責任擴散、審查疲勞、無主錯誤 |
這個堆疊給出乾淨答案:品味是稀缺輸入,evals 是編碼,dogfooding 是訓練迴圈,問責制是規模化約束。
小團隊 vs 較大組織#
對於小型的 Claude Code 式團隊,可見瓶頸是品味。團隊能快,因為角色邊界塌縮:人人都寫程式,工程師做 PM 工作,PM 與設計師能出貨,經理以 IC 起步。團隊不必等待 PM→設計→工程→文件的串行鏈。
但這只有在成員具備足夠產品感、避免「直接去做」變成隨機亂動時才成立。AI Native Product Cadence 明確點出這種速度的代價:產品一致性受損、功能可能重疊、使用者像在跑步機上、code review 更難、部分版本比理想更有缺陷。品味瓶頸是真實的,因為速度會放大好判斷與壞判斷。
在較大組織規模,可見瓶頸轉向問責制。Human-AI Accountability Redesign 說得很直白:為人類節奏建構的工作、角色與治理,不會自動容納 agentic 產出。一週能監督五份文件的經理或 PM,無法自動監督五十份 AI 產物。問責單位必須圍繞人類實際能檢視與擁有的範圍重新設計。
因此順序隨規模而變:
- 個人貢獻者: 品味與驗證紀律。
- 功能團隊: dogfooding 加 evals。
- 產品組織: 問責制、決策權與控制幅度重新設計。
為何 dogfooding 比乍看更重要#
Dogfooding 容易被低估,因為它不是正式產物。但證據把它視為整條品味供應鏈的來源。
Dogfooding as Product Discipline 說產品感來自持續的第一手使用。Managers as ICs 把它結構化:每位 Claude Code 經理都以 IC 起步並保持產品所有權,因為不在程式庫裡的經理感受不到正在出貨的產品。這不是文化點綴,而是為在管理層保留品味而做的組織設計。
同一模式出現在 Evals as Product Spec:vibe-check 不是最終證明,但會產生 eval 後來凍結的假設。「這個模型沒有充分測試自己」始於品味觀察;eval 讓它持久。
沒有 dogfooding,evals 會變成貨櫃崇拜式量測。你可以寫可執行的檢查,但會編碼淺層表面屬性,因為沒有人具備親身判斷,知道哪些失敗重要。
為何 evals 是產品規格瓶頸#
Evals as Product Spec 對 evals 提出最強主張:在 AI 產品中,問題不再只是團隊能否出貨,而是能否分辨「能用」與「只是輸出流暢」的功能。
這很重要,因為 AI Native Product Cadence 提高發布頻率。1 天或 1 週的發布迴圈,只有在回歸便宜可偵測時才可持續;否則速度只會放大模糊。
Evals 正好介於品味與問責制之間:
- 讓品味判斷可執行。
- 讓工程師與 PM 收斂到同一完成定義。
- 減少重複的人類辯論。
- 提供讓產品節奏保持高位的回歸護欄。
但 evals 不能取代問責制。仍要有人決定哪些 eval 重要、哪些失敗阻擋發布、哪些取捨可接受,以及何時通過 eval 套件仍不足——因為產品感覺不對。
問責制是最終瓶頸#
若被迫為組織只選一個答案,選問責制。
品味可透過 dogfooding 訓練。Evals 可編碼部分品味。節奏可透過移除交接加速。但這些都解不了核心組織問題:當 AI 放大產出量時,誰擁有結果?
Human-AI Accountability Redesign 說人類角色集中在監督、判斷、關係建立與模糊地帶;也說監督容量不會只因產出增加而擴張。那是硬上限。失敗的 AI 原生產品組織會得到:
- 比能審的更多已出貨產物;
- 更多沒有明確決策權的決策;
- 更模糊的升級路徑;
- 更多獎勵速度卻不獎勵監督品質;
- 更多歸屬不清的人類錯誤。
因此問責制在此脈絡下不是官僚主義,而是讓品味與 evals 在組織變快之後仍有意義的結構。
實務綜合#
運作模型應為:
- 讓建造者貼近產品。 用 Dogfooding as Product Discipline 與 Managers as ICs,讓品味扎根於真實使用,而非二手報告。
- 跨角色招聘與晉升都看重品味。 Engineer PM Convergence 意味品味不是 PM 專屬技能,而是任何現在能出貨者的核心技能。
- 把反覆出現的品味判斷變成 evals。 在模糊重複或回歸代價高時,用 Evals as Product Spec。
- 依審查容量定義問責單位。 用 Human-AI Accountability Redesign:決策權、升級規則,以及獎勵監督品質而非僅產出的績效管理。
- 把節奏當壓力測試。 AI Native Product Cadence 只有在速度提升學習、又不超越所有權時才健康。
底線#
新瓶頸不是「品味或 evals 或 dogfooding 或問責制」。瓶頸是在 AI 壓垮實作成本時,仍讓人類判斷可問責。
品味選擇。Dogfooding 訓練品味。Evals 編碼品味。問責制擁有後果。四者缺一,AI 原生產品組織會以可預測方式失敗:無品味的速度、不接地氣的指標、軼事式判斷,或快速無主的產出。
相關連結#
- AI Native Product Cadence — 暴露瓶頸的節奏壓力。
- Engineer PM Convergence — 為何品味跨職稱流動。
- Dogfooding as Product Discipline — 產品感如何建立與維持。
- Managers as ICs — 管理層的 dogfooding 與所有權。
- Evals as Product Spec — 品味渲染為可執行的完成定義。
- Human-AI Accountability Redesign — 組織規模的所有權、決策權、升級與監督品質。
- Verification as the New Bottleneck — 同一轉向(從生成到審查)的工程端版本。
- Orchestration vs Employee Framing: Reconciling the Founder's Playbook with HBR's Accountability Evidence — agent 編排工作的問責框架。
Cited by 1
- AI Native Product Cadence
Cat Wu's 6mo→1mo→1day cadence at Anthropic: research-preview branding, mission-as-tiebreaker, evergreen launch room, li…
Related articles
- Open Questions Backlog
_96 pages with open questions, as of 2026-06-14._
- Engineer PM Convergence
Generalists across disciplines; product taste as bottleneck skill; Anthropic Claude Code team as case study; "just do t…
- Anthropic
AI safety company / vendor of Claude; mission-as-tiebreaker culture; ~30–40 PMs across teams; Mike Krieger leads Labs r…
- Cat Wu
Head of Product for Claude Code and Cowork at Anthropic; primary articulator of AI-native product cadence and engineer-…
- Compounding Loop Optimization
Dan Carey's discipline of instrumenting and automating every recurring step of the build loop — because when internal t…
