由
_system/lint.py --write-backlog產生。請勿手動編輯。 從每篇概念文章的## Open Questions區段採集。 透過/query處理;已解答項目歸檔至 derived。
截至 2026-05-25,共有 62 篇含開放問題。
Agent Harness Engineering#
- 單一通用編碼 agent 是否優於具專門測試、QA 與清理 agent 的多 agent 架構?
- 在完全由 agent 產生的系統中,架構一致性如何隨年份演進?
- 在什麼程式碼庫規模下,AGENTS.md 作為目錄的方法需要被更精密的上下文路由取代?
- 這些以 web 應用為焦點的發現,對其他領域(科學研究、金融建模)的可推廣性如何?
Agent Loop Pattern#
- 當模型自行排程迴圈(4.7 行為)時,誰擁有預算?Boris 的回答是「模型自己決定」——但這把成本紀律推進模型的訓練,而非 harness。
- 迴圈若搭配夠聰明的模型,是否仍需要 Kanban 待辦,還是模型能從原始目標自行選擇下一項任務?
- 迴圈產出的審查如今是 Matt Pocock 坦承的瓶頸——「我們只需要準備好做更多 code review。」
Agent-Native Infrastructure#
- 誰來打造人類面向服務長尾中的 agent-native 重寫——服務擁有者,還是在其上方的轉譯層(MCP 伺服器、Computer Use agent)?
- Agent 對 agent 的協商需要信任、身分與問責原語,而這些尚未存在。協定層是什麼,由誰治理?
Agentic Loops Overtake Bespoke Systems#
- 客製系統的優勢目前標註為「暫時」。下一世代模型會如何裁決——演化式/AlphaProof 裝置在任何問題上仍能存活,還是完全塌縮成一條成本線?
- 「簡單迴圈 + 驗證器勝過客製系統」的結果,是否僅在驗證器完美(Lean)時成立,還是在有雜訊的驗證器領域(測試、LLM-judge council)也成立?
Agentic Technical Debt#
- CLAUDE.md 在程式碼庫演進時能維持多久準確?playbook 暗示逐 session 更新;沒有關於腐化速率的資料。
- 補救假設創辦人能夠用白話說明架構。非技術創辦人(playbook 標榜的主要受益群)可能既沒有詞彙也沒有直覺把這件事做好——playbook 未處理的遞迴失敗。
- Anthropic 的 harness-shrinkage 論點暗示 CLAUDE.md 最終可能由模型自行推斷。在此之前,這項紀律仍是承重的。
AI-Driven Formal Proof Search#
- 成功案例集中在 Lean 的 mathlib 已成熟、且問題可分解為可處理子目標之處(組合、凸優化、數論)。如何把前沿擴展到需要新理論的問題?
- Agent 繼承其 LLM 的偏見並呈現高搜尋變異。如何刻畫並推進可達邊界?
- Graffiti 結果暗示 AI 猜想與 AI 證明之間閉環的可能。端到端的猜想→形式化→證明管線長什麼樣子?
AI Native Product Cadence#
- 這種節奏能否擴展到約 100 人以上?Anthropic 本身更大(僅 PM 就有約 30–40 人),但可見驅動節奏的 Claude Code 團隊很小。
- 對期望穩定性的 B2B 企業上線,研究預覽品牌化的對等物是什麼?Cat 未談及。
- 節奏有多少是結構性(流程選擇)vs 文化性(人才密度)?可能兩者皆有,比例不明。
The AI-Native Safe-Choice Inversion#
- 反轉是「安全」的一次性重定價。一旦出現多家 AI-native ERP,「安全」是否會重新穩定在最大的 AI-native 廠商周圍——而 Campfire「我們已是新世代中最大」的說法,是否反映對該位置的搶佔?
- 既有廠商還要多久才能加上可信的 AI 並中和反定位——而自訂基礎模型的主張,是否真的防得住?
AI-Native Startup Lifecycle#
- Playbook 對人數/資本壓縮主張沒有量化證據(沒有中位數達 PMF 時間、達 PMF 人數、失敗率資料)。「精實 10 人獨角獸」被斷言為刻意目標,但文件本身沒有案例研究證據。
- 資源區的創辦人故事(Carta Healthcare、Anything、Cogent、Airtree、Duvo、Zingage、Kindora、Wordsmith)都是短摘——皆無已發表結果或可比比較基準資料。
- CB Insights 的 42%「做了沒人要的東西」來自 AI 前時代;playbook 預測比率會上升,但未引用 2026 年量測。
- 與 HBR 問責發現(上文)的張力未解。Playbook 的編排框架讀起來正是 HBR 實驗條件所檢驗的對立面。
AlphaProof Nexus#
- 框架的觸及範圍受 Lean mathlib 成熟度限制。通往需要新理論而非子目標分解的領域,路徑是什麼?
- AlphaProof 作為獨奏者貢獻不大,但作為工具有幫助。隨著 prover LLM 變強,AlphaProof 工具是否會完全多餘?
Building Is Cheap, Arguing Is Expensive#
- 「產生三個再比較」在什麼時候變成浪費——決策權重達到什麼程度時,真正的論辯(或設計文件)仍比三份實作便宜?
- 若設計討論活在 PR/原型裡,理由對未來讀者記錄在哪裡——「為何選這個」的知識能否留存,還是與 Code as Source of Truth 同樣會過時?
Campfire#
- Campfire 聲稱 AI 優勢來自「我們自己的基礎模型」。對 ERP 而言,自訂基礎模型相對於微調前沿模型實際買到什麼——且隨前沿模型改進是否持久(參見 Harness Shrinkage as Models Improve)?
- 「從未有人因成長而離開 Campfire」——當客戶達到 NetSuite 歷史上廣度曾重要的真正企業規模時,這還成立嗎?
Claude Character as Product#
- 角色如何隨模型版本迭代?公開評論未見角色層級的變更日誌。
- 競爭對手能否透過微調複製角色,還是路徑依賴於 Anthropic 內部實踐?
- 對 Cowork 這類非編碼產品,同一角色是否適用,還是 Cowork 需要自己的角色調校?
Claude Code Auto Mode#
- 分類器對例行但激進的重構(例如大檔重新命名、
rm建置產物)的誤報率是多少? - 分類器對自訂工具/MCP 伺服器(缺乏環境上下文)的泛化如何?
- 分類器的決策邊界是否文件化/穩定到足以讓安全敏感組織認證,還是實質上是會隨更新漂移的黑箱?
- 將 auto mode 延伸到 API 使用者是否改變其校準——分類器是否為自動化重度使用重新訓練,還是保持不變?
- 相較於 OS 層沙箱(在 Claude Code Best Practices 中與 auto mode 並列),縱深防禦故事是什麼?何時應兩者疊加?
Claude Code Best Practices#
- 最佳 CLAUDE.md 長度為何,才不至於讓指令開始被遺失?是否有可量測閾值?
- Writer/Reviewer 模式與 agent 對 agent 審查(如 OpenAI 的 Codex 流程)相比如何?
- 何時 subagent 開銷超過上下文隔離帶來的好處?
Claude Opus 4.7#
- Hakim(2026)在 Opus 4.6 上的簡潔約束發現,在 Opus 4.7 上是否可重現,還是字面指令遵循改變了彈性?具體而言:
<50 words在 GSM8K 上是否仍帶來 +13.1pp? - Opus 4.7 在 HotpotQA 風格的組合掃描中是否仍表現不佳作為 planner,還是改進的指令遵循縮小了 AgentOpt(Hua et al., 2026)指出的差距?
- 典型 Claude Code session 的真實世界 token 膨脹倍數為何(1.0–1.35× 依內容而異——在程式碼密集 vs 散文密集輸入上的分布如何)?
- xhigh 與 max 在編碼 eval 上如何比較?遷移指引說「從 high 或 xhigh 開始」——對編碼 max 是否仍值得?
- 在字面指令遵循下,既有 CLAUDE.md/system prompt 中有多少防禦性措辭會變成反效果?
Client-Side Agent Optimization#
- 組合層級優化如何與持續的模型發布互動?若下個月推出 Claude Opus 4.7,整個 Pareto 前沿是否需要重跑,還是暖啟動 bandit 能便宜適應?
- 管線深度到何處時,即使 Arm Elimination 組合搜尋也變得不可行?論文測到約 81 種組合;生產管線若有 5+ 角色、每角色 10+ 候選模型,會遠超此數。
- 「弱 planner + 強 solver」模式是否可推廣,還是 HotpotQA 委派動態特有?推薦-評論、drafter-editor、檢索-生成等拓撲可能反轉。
- 工具環境變更時應如何重新評估?AgentOpt 假設工具固定——新增或移除工具可能使整個前沿失效。
- 是否存在便宜的 per-call 分類器,能預測哪個組合在給定查詢上獲勝,從而完全避免組合層級評估?
Code as Source of Truth#
- 哪些知識真正無法活在程式碼庫中(組織策略、「為何」、跨團隊上下文),因而仍需要持久文件——且如何讓這一小片保持最新?
- 若 onboarding 是「問 Claude」,先前在深度訪談中社交傳遞的默會知識會發生什麼——是否被捕捉,還是悄悄流失?
Codex App Server Protocol#
- App Server 協定與 MCP 的細節比較如何?兩者都向模型暴露工具,但 App Server 在 Codex runtime 內部,MCP 在外部。何時各者勝出?
- 是否有公開 schema registry,讓外部編排器能鎖定特定 App Server 版本而無需
generate-json-schema? - 「dynamic tool calls (experimental)」的註記——穩定性路線圖為何?Symphony 的安全模型依賴此項。
- 協定對多模態 turn(圖像輸入、螢幕截圖附件)處理多好?規格以文字為主。
- Claude 側是否有類似協定,還是 Claude 的對等物 exclusively 為 Agent SDK + tool-use API?比較兩者可釐清何時「驅動既有 CLI」勝過「在 SDK 上建構」。
Compounding Data Moat#
- 「兩年複製窗口」主張在經驗上是否站得住,還是願景性質?Playbook 未引用量測。
- 當基礎模型本身持續快速改進時,這道護城河如何撐住?若 2027 年的通用模型內化足夠垂直上下文以原生處理 340B 藥品理賠,垂直邊緣案例護城河是否侵蝕?
- 資料飛輪論點 SaaS 已講了 15 年。AI-native 版本真正不同之處為何?可能是:資料同時改進模型與產品,但 playbook 未精確區分。
- 「客戶在你之上建 API」的鎖定,在結構上類似平台玩法(Salesforce AppExchange、Shopify apps)。護城河類型真的是新的,還是只是精實新創更容易取得?
Compute Allocator#
- 1% 是 Thariq 專屬數字還是一種體制?對更大、程式碼更重的專案,生產殘留 presumably 更高;什麼決定比例?
- 分配品質難以量測——什麼回饋迴路能告訴 allocator 他們把 compute 花得很糟(而不只是花很多)?
- 把人類視為「compute allocator」是否冒 oversight-fatigue/accountability 失敗模式的風險——人類名義上決定、實際上橡皮圖章?
Context Window Smart Zone#
- smart-zone 標記是否隨模型規模縮放,還是受 attention 架構限制?Pocock 觀察「dumb zone 近來沒那麼笨了」,但截至 2026 仍錨在 100K。
- 當 sparse-attention 或記憶增強架構出貨時,smart zone 是否變成軟約束?
- Harness 應如何向使用者呈現剩餘 smart-zone 預算——token 數、百分比,還是更豐富的訊號?
Cowork#
- Cowork 的 harness 與 Claude Code 相比如何?兩者都暴露 skills、MCP、sub-agent——但非程式碼產出的失敗模式不同(沒有測試套件、沒有編譯器、沒有 diff 可審)。
- Cowork 類產出的 eval 紀律是什麼?Cat Wu 說記憶從 eval 受益很多;簡報品質如何量測尚不清楚。
Deep Modules for Agents#
- 「夠深」是多深?Pocock 的範例模組是數百行 LOC;Ousterhout 教科書範例更大。有甜蜜點;來源未闡明。
- 對 ports/adapters 程式碼庫,深模組建議能否乾淨轉移?「小介面」是 port;「大行為」是 adapter。可能可以,但來源未演練。
- 重構成本 vs 效益:何時在可運作的 repo 上執行
improve-code-base-architecture值得?
Design Concept Grilling#
- 能否 AFK 對另一個持有使用者偏好的 agent 執行 grilling?Pocock 2026 年的回答是「不行,這部分必須 human-in-the-loop」——但隨 agent 更能建模 principal,問題仍開放。
- 多人需對齊的團隊工作中 grilling 如何變化?Pocock 提示:與 agent 結對,把它當第三個對話者。
Disposable Micro-Apps#
- 一次性微應用與工具蔓延的界線在哪?若每次編輯都產生客製 UI,工作流程是否碎片化?
- copy-back-to-markdown 往返能否推廣到設定型資料(規則、表格)之外的更豐富產物?
- 這些微應用能否模板化/重用——到何種程度會打敗「一次性」框架,變成 durable tooling?
Dogfooding as Product Discipline#
- Dogfooding 在團隊就是使用者(Claude Code)或很接近(Cat Wu、Boris)時有效。對與你很不相同的使用者,如何建立產品感——「與客戶交談」是否如 Glasgow/Fung 的小企業工作所暗示的完全夠用?
- Dogfooding 能否擴展,還是隱含地限制了 AI-native 產品組織在多大規模前仍能以品味驅動,之後就退回儀表板?
Engineer PM Convergence#
- 這能否擴展到約 50 人以上的 Claude Code 風格團隊?Boris 保留:「我覺得這會是多年的問題。」
- 在工程師做 PM 工作的公司,正式 PM 職涯階梯會如何?在 Anthropic 仍開放,依 Cat。
- 跨領域通才是招聘門檻——供給從哪來?職涯轉換者,還是偏向 AI-native 教育的新鮮人?
Evals as Product Spec#
- 如何為 character 這類品味驅動的功能寫 eval?Amanda 的角色因抗 eval 而具代表性;Cat 在此稱她擅長 eval,但未描述技法。
- 10 vs 100 的數字沒有理由。是否有剛好區間,還是取決於功能表面積?Client-Side Agent Optimization 的組合框架暗示 eval 也有組合爆炸問題。
- Eval 如何與 Harness Shrinkage as Models Improve 互動?當 harness 資產因模型原生處理而縮小,圍繞舊 harness 建的 eval 可能變成遺跡而非護欄。Anthropic 是退役 eval 還是改用途?
- 是否有單一非 Anthropic 的 PM-as-eval-writer 案例可引用,還是目前仍是 Cat-Wu 獨特框架?Matt Pocock 工作坊用不同詞彙到達同處,但尚無第三來源被 ingest。
Evolutionary Proof Search#
- LLM-critic 適應度本身是在已驗證基底上的未驗證啟發式。Elo 排名誤導搜尋 vs 計算它的成本,頻率如何?
- 超參數($c=0.2$、top-64、$P=7$)是「經驗選擇」。結果對它們多敏感,能否跨數學領域轉移?
Founder as Agent Orchestrator#
- Playbook 聲稱非技術創辦人現在能建生產級軟體,但未處理架構判斷遞迴問題(Agentic Technical Debt):非技術創辦人可能沒有詞彙寫出有效的 CLAUDE.md。這如何擴展?
- 「精實 10 人獨角獸」被斷言;playbook 沒有 AI-native 新創 vs 前一世代在達 PMF/Series-A 人數中位數的量化資料。
- 編排角色如何改變創辦人的決策負擔?較少親手任務但更多平行 agent 監督;淨認知負荷不明,可能更高(見 AI Brain Fry)。
- Anthropic 同時發布 playbook 的擬人化框架與 HBR 意識的問責工作(auto mode、alignment),卻未直接面對框架文獻。Orchestration vs Employee Framing: Reconciling the Founder's Playbook with HBR's Accountability Evidence 在操作層面調和張力——編排作為工作流程設計保留問責;編排作為把 agent 當同事的 mental model則不行——但 playbook 行銷語言為何未反映 Anthropic 自己的框架紀律,仍是開放問題。
Founder-Led Sales Discipline#
- 「直到 PMF」究竟在何處結束,創辦人應先交辦的第一件事是什麼(AE?agent?兩者?)?Glasgow 在 Series-B 後仍親自做,顯示邊界模糊。
- Glasgow 的反交辦立場能否推廣,還是專屬於高信任、任務關鍵的企業銷售(ERP),「他們買的是你」——PLG/SMB 動作是否會更早委派給 agent?
Google DeepMind#
- DeepMind 報告其客製系統被簡單迴圈追上。實驗室的比較優勢是否從系統轉向模型 + 驗證器 + benchmark(mathlib、Formal Conjectures)?
- 論文開啟 AI-for-math;DeepMind 下一個存在可靠驗證器的目標領域是什麼?
Harness Shrinkage as Models Improve#
- 所有 prompt 鷹架最終是否都會遷入模型,還是有些會留下——例如組織專屬風格、安全規則、品牌語調?
- Boris「一百行程式」的預測距 2026 年 5 月還有一年——2027 年可驗證。
- 若 harness 工作縮小,什麼新工作會擴大填補?Cat Wu 的賭注:PM/產品味、寫 eval、角色工作。
Hermes Agent#
- 容器後端停用危險指令檢查是可辯護的設計,但是有意義的安全模型轉變。經驗紀錄如何?熱門映像(Daytona、
nikolaik/python-nodejs)的 lockdown 失敗是否造成事件? - 有界記憶檔(
MEMORY.md約 2,200 字元)長期使用撐得住嗎?提到自動合併但未規格化——合併演算法是什麼,多 lossy? - Hermes 的 DM-pairing 流程是乾淨的安全原語。為何 Claude Code 或 Cursor 在共享/團隊部署未採用此模式?
AGENTS.md(專案)與SOUL.md(人格)在 Hermes 中明確分離,在 Claude Code 的CLAUDE.md中則隱含。分離是否實質改善結果,還是無實證支撐的文件選擇?- 在無記憶的新 session 中執行 cron——團隊如何結構「agent 需要的上下文」而不讓每個 cron prompt 膨脹?是否有標準模式?
HTML as the New Markdown#
- 人類面向 harness 會無止境成長,還是也會撞上自己的膨脹天花板(HTML 計畫太複雜無法閱讀,就像它取代的 markdown)?已解答:Does the Human-Facing Harness (HTML Artifacts) Hit Its Own Bloat Ceiling?——會;HTML 提高並重塑人類注意力天花板但無法移除,膨脹從文件長度遷移到 artifact 蔓延/橡皮圖章。
- HTML 比 markdown 更重 diff 與版本——當產物是單檔網站時,計畫歷史與審查會如何?(Disposable Micro-Apps 的 copy-back-to-markdown 是一種補丁。)
- 這能否推廣到單一專家實踐者之外,還是需要 Thariq 級別的 Claude 熟練度才值得開銷?
Interaction Models#
- 互動/背景分割能否推廣,還是過渡性產物,直到單一模型同時夠快又夠深?
- 「互動性隨智力擴展」被斷言;2026 年稍晚的更大模型發布是測試。
- 互動 benchmark 的研究補助已宣布——影片主動性的 FD-bench 對等物會是什麼?
Jagged Intelligence (Ghosts, Not Animals)#
- Karpathy 承認框架可能沒有「真正力量」。「ghost vs. animal」是否承重,還是有用但不改變具體決策的直覺泵?
- 若品味/美學/簡潔進入 RL 混合,那些維度的參差會否平滑——還是它們太不可驗證而無法乾淨獎勵(參見 The Verifiability Thesis)?
Lean#
- mathlib 成熟度限制可達前沿。AI 形式證明搜尋能否成長 mathlib(形式化新理論)作為副產品,從而擴展自己的前沿?
- Lean 對數學是完美驗證器。哪些其他領域有同樣可靠的自動驗證器(相對於僅有雜訊者如測試或 LLM-judge council)?
Living Design System#
design_system.html如何隨程式碼庫演進保持同步——按節奏重新萃取,還是接入 CI?- 可渲染、模型可讀的設計系統,相對於純 CSS/token 檔,是否可量測地改善 on-brand 產出,還是贏點主要在於人類可讀性?
- 在什麼專案規模下,維護 artifact 的成本超過它帶來的一致性?
LLM-as-Compiler Knowledge Base#
- 無向量資料庫方法在什麼規模會崩潰?Karpathy 的約 100 篇文章能放進上下文,但 1,000+ 呢?
- 編譯時如何處理來源間衝突資訊?
- 概念文章的最佳粒度——每文一概念,還是按主題叢集?
- 合成訓練資料 → 微調管線實務上多有效?
LLM-Driven Vulnerability Research#
- 這些能力如何轉移到非記憶體安全 bug 類(邏輯 bug、協定層缺陷、供應鏈攻擊)?
- 自主 exploit 複雜度的天花板在哪?N-day 範例已相當精密——是否有質性限制?
- 當多家實驗室擁有 Mythos 級模型時,安全產業均衡如何位移?
- 防禦鷹架(持續 fuzzing + 模型驅動分類 + 自動修補)能否在過渡期縮小攻擊者-防禦者差距?
- 對 Mythos 級產出,什麼防護有效而不削弱合法安全研究?
Managers as ICs#
- Fung 自己的開放問題:「還需要分開的 iOS 與 Android 組織嗎?」——若工程師透過 Claude 跨平台靈活切換,傳統平台拆分組織可能也會溶解。扁平化能走多遠?
- manager-as-IC 能否擴展到某個組織規模以上,還是僅在 Claude Code 小、程式碼庫 Claude-legible 時有效?
MCP and Computer Use#
- MCP 生態成長率 vs Computer Use 品質曲線:Computer Use 在何時夠好,使得邊際上建 MCP 伺服器的價值下降?Boris 暗示還要數年但未量化。
- Computer Use 是可持續介面還是過渡技術?若多數知識工作軟體在 24 個月內加上 MCP,Computer Use 的角色縮到僅剩 legacy/桌面系統。
- MCP 安全模型:playbook 建議精實創辦人把 MCP 接到 Salesforce、Gmail、Calendar,攻擊面隨採用擴大。任何已 ingest 來源都未討論。
- Cowork 的 Computer Use 護欄與 Claude Code 的 auto mode 分類器相比如何?部署情境不同,風險輪廓可能不同。
Model Introspection Feedback#
- 4.7 級內省報告有多可靠?Anthropic 的可解釋性研究暗示部分保真而非完整。經驗上 Cat 稱其足夠驅動 harness 修復——但在什麼模型規模此技法變成承重尚不清楚。
- 對抗性內省(「為何失敗?」)vs 中性(「走一遍你的推理」)是否產生不同訊號?值得探測。
- 能否有 meta-agent 對記錄的失敗自動執行內省?聽起來可行但無公開實作。
Model Spec Science#
- Model Spec science 能否跨基礎模型或家族轉移?論文僅測 Qwen。
- 能否撐過 RL 後訓練壓力?
- 足夠豐富的 General Spec 能否匹配 Specific Spec?作者認為可以,尚無示範。
- 與 situational awareness 的互動——若模型學到 spec 用於訓練自己,MSM 安裝的價值表達是否改變?
- 這如何與 Claude character 互動——溫暖/好奇的人格是否也受 spec-science 優化?
Mythos Model#
- 公開發布時程:來源中無。
- 網路安全以外的能力輪廓:Mythos Preview 聚焦安全故事;其他能力維度外部文件不足。
- 內部存取控制:Anthropic 誰實際用 Mythos 做日常工作,vs Opus 4.7?Boris 暗示不頻繁(試用);未細述。
Narrow Wedge into a Legacy Market#
- 楔子進場時有效;出場時是否成為束縛?Campfire 現已服務上市公司——在何時「窄而最好」需要變成它取代的廣泛既有廠商,重新承擔 NetSuite 的複雜度?
- 楔子翻轉顯示第一個楔子可能錯。什麼訊號最快能讀出楔子是轉為核心而非僅能賣——Campfire 約 3 個月;能否更早讀出?
Outsource Your Thinking, Not Your Understanding#
- Karpathy 的開放前沿:「理解」本身最終能否自動化,還是定義上就是人類殘留?他「過幾年再回來」的保留讓問題開放。
- 若理解是瓶頸,最高 ROI 技能是否是學會快速建立理解(知識庫衛生、問對 projection)——且能否教會?
Printing Press Software Democratization#
- 2026 年領域專家即 builder 是否真的在規模上發生?軼事(店主、微控制器愛好者)有;非工程師以軟體建構為主業,較不明。
- 普及 coding 素養的義務教育對等物是什麼?還是不會發生,我們得到長尾自學 builder?
- Boris 的「會計師寫會計軟體」——是否產生 1 萬個窄工具且互不相通?整合故事是什麼?
Problem-Solution Fit Discipline#
- 請 AI 反駁一個想法,是否真的以與支持證據相同的嚴謹度產生反證,還是模型仍偏向創辦人呈現的框架?值得量測。
- Playbook 建議「請 Claude 提出競爭對手為何會成功而你卻不會的最有力論點」。這如何與 Anthropic 已發表的 character training(抗討好、願意魔鬼代言人)互動?
- 是否有人量測 2026 年 AI 建產品的創業失敗率?「42% 會上升」被斷言但未量測。
Product Velocity as Moat#
- 速度作為護城河是跑步機:競爭對手匹配 pace 時優勢即蒸發。Campfire 的速度領先如何在 AI-native 同儕 pace 收斂前,轉成結構性護城河?
- 「從未有人因成長而離開 Campfire」——是倖存者偏誤(尚未達真正企業規模)還是真能主張速度比客戶成長更快補上廣度差距?
Scale-Dependent Prompt Sensitivity#
- RLHF 長度偏見假說若直接對 base(非 instruct)模型變體測試,是否可重現?若冗長生成主要在預訓練,base 模型的冗長差異應與 instruct 模型一致。
- 什麼問題特徵預測 prompt 敏感度?自動分類器會使規模特定 prompting 可部署。
- 過度思考效應如何與使用工具的 agent 互動?若簡潔幫大模型但工具需要結構化推理,最佳 prompt 並非一律簡短。
- 推理模型(o1、DeepSeek-R1 風格)是否與 instruct 模型有不同的過度思考動態?它們被訓練成明確產生長 CoT——簡潔干預是否傷害它們?
- BoolQ 的 functional-elaboration 例外是乾淨的分類邊界,還是每種任務類型都有上下文相依的最佳長度?
Seven Powers Applied to AI#
- 「轉換成本」實務上是否真的在崩塌,還是僅在敘事中?Anthropic 自己的留存、Salesforce 流失等可檢驗。
- Boris 的「cornered resource」對本身也在商品化的基礎模型實驗室長什麼樣?內部矛盾還是過渡階段?
- 反定位——明確是「既有廠商無法跟進」的力量——在 AI 下應放大。是否有人刻意跑這套玩法?
Software 3.0#
- 「應用不該存在」(MenuGen)與應該存在的應用之間的界線在哪——即何時確定性 1.0/2.0 鷹架仍是正確選擇 vs 多餘?
- 神經網路作為 host process 的翻轉被呈現為看似可行但尚待驗證。第一個真正反轉 CPU/NN 關係的生產系統會長什麼樣子?
Symphony#
- 500% landed-PRs 主張被保留——無基準定義,僅「在某些團隊」。跨團隊分布如何?該吞吐下 PR 品質與 revert 率如何?
- 「跨 run 保留工作區」與典型 CI 短暫性相反。在何時來自先前 run 的狀態污染(過期
node_modules、殘留分支、建置產物)傷害大於 warm-cache 幫助? - Symphony 不寫入 tracker——agent 寫。這意味 tracker 政策是
WORKFLOW.md中的prompt。實務中當 Linear 改 API 時有多脆?當 agent 在 prompt 層有裁量時,如何強制一致的狀態機行為? - 規格因在 6 種語言中實作而簡化。此技巧的延伸是什麼?本 vault 的
compiler-prompt.md能否同樣 cross-fuzz? - Symphony 明確說 agent 可自建 ticket。什麼治理防止 ticket 圖無限擴張?人類分類 agent 建立的 ticket 是唯一檢查嗎?
Ticket-Driven Agent Orchestration#
- 當單位是「一個 agent 在一個工作區做的一件事」時,ticket 粒度的正確尺度是什麼?文章暗示「大得多的工作單元」變得可行,但這如何與
agent.max_turns限制(預設 20)互動? - 當 agent 自由開後續 ticket 時,如何防止 ticket 延伸級聯?唯一治理是否是在
Todo狀態佇列的人類分類? - 此模式能否推廣到非軟體工作(研究、營運、內容)?DAG 相依與 prompt-as-policy 檔應可轉移;每 issue 工作區則不那麼明顯。
- 當 agent 把 ticket「完全做錯」(文中提到),教訓如何回饋系統?Symphony 的答案是「加 guardrails 和 skills」——那項制度流程是什麼?
- Ticket 驅動編排如何與以 ticket 聚合運作的 sprint planning/OKR/roadmap 互動?當 ticket 粒度那麼小時,抽象是否崩塌?
The Verifiability Thesis#
- 「LLM judge council」的可靠性邊界在哪——是否僅適用品質/連貫性,還是也適用真正有爭議的價值判斷?
- 「實驗室在意」依賴很脆弱:能力可能因你無法控制的實驗室優先級而出現或停滯。產品如何對 data-distribution rug-pull 對沖?
Verification as the New Bottleneck#
- Fung 自己的開放問題:「全自動審查能推多遠?」——速度/安全平衡在哪,如何讓人類有信心又不重新引入審查瓶頸?
- 若 CI/build 是隱性卡點,驗證基礎設施(測試 runner、CI 容量)是否成為 AI-native 組織真正的 capex?
Vertical Slice Tracer Bullets#
- 一旦被告知,planner agent 能否可信地垂直切片,還是需要 verifier 標記水平切片?Pocock 的經驗:至少需要 verifier,至少到 4.7。
- 切片粒度應如何調校?太薄 = 大量 merge conflict;太厚 = 回到水平。
Vibe Coding vs. Agentic Engineering#
- Karpathy 暗示創辦人有一個「非常有價值」的領域但不願說(不想在台上「模糊發文」)。他指的是什麼可驗證 RL 環境領域?
- 若平庸/AI-native 差距持續擴大,團隊組成會如何——少數極端 outlier 加 agent,vs 廣泛中階編制?
Zero-Friction Scope Creep#
- Playbook 建議書面 scope,但沒有模板或完整範例。「我們刻意不做什麼」需要多具體才能真正擋住請求?
- 是否有可量測閾值,scope creep 跨越成 outright pivot?Playbook 對「失去方向」比劃但未給指標。
- 這如何與 Cat Wu's 1 天上線節奏互動?Anthropic 內部實踐上線快但有強產品判斷;該判斷如何轉化給首次創辦人?
Related articles
- Claude Code
Anthropic's agentic coding product; created by Boris Cherny late 2024; TypeScript/React; CLI/desktop/web/mobile/IDE sur…
- AI Engineering & Agent Tooling
Map of Content for the ai-engineering domain — 35 concepts. Curated entry point; see Home for all domains.
- Claude Code Best Practices
Anthropic's guide to effective Claude Code usage: context management, verification-driven development, explore→plan→cod…
- Harness Shrinkage as Models Improve
Prompt scaffolding shrinks each model release; Cat Wu's pruning discipline; Boris Cherny "100 lines of code a year from…
- Agent Harness Engineering
Patterns for scaffolding long-running LLM agents: environment design, progressive context disclosure, mechanical archit…
