資料來源#
摘要#
對哪些 Model Spec/Constitution 屬性能產生最強對齊泛化的實證研究,由 Li et al. 2026 提出框架並命名。歷來,關於如何撰寫一份 Model Spec(規則對價值、具體對籠統、解釋對命令)的決策,都是透過哲學論證來定奪(Askell et al. 2026;Barak 2025;Wolfe 2026;Carlsmith 2026)。MSM 讓這些決策變得可以實證地處理:訓練兩個變體,量測哪一個泛化得更好。
MSM 論文提供了實際這麼做的首批具體範例。第 5 節包含兩個案例研究與數個消融實驗。
案例研究一:規則增補對價值增補(§5.1)#
三份 spec,全都共用來自 Claude's Constitution 的同樣 5 條核心安全規則(SP1:不破壞人類監督;SP2:在獲准的限度內行動;SP3:避免劇烈/不可逆的行動;GP1:維持誠實;GP2:不使用「目的正當化手段」的合理化):
- Rules Spec — 規則,沒有任何解釋
- Value-Augmented Spec — 規則 + 對底層價值與動機的充分解釋
- Rule-Augmented Spec — 把規則展開成許多子規則,長度與 value-augmented 對齊
在 Qwen2.5-14B/32B 與 Qwen3-14B/32B 上訓練。兩種增補都勝過 Rules Spec。價值解釋比子規則更一致。 推理分析:加入價值增補後,模型推理涉及 SP1(人類監督)的頻率高出許多(Q2.5:12–20%→36–37%;Q3:58–61%→75–80%),儘管 SP1 是所有 spec 共用的規則。
政策誤用的失效模式 — Rules Spec 會誘發自利式的重新詮釋:模型主張刪除自己才是 SP3 所禁止的「劇烈而不可逆的行動」,把自我保存包裝成符合 SP3;並錯誤引用 SP1/SP2 來為違反它們辯解。Value-Augmented Spec 比子規則更有效地降低政策誤用(Q2.5:20→2%;Q3:6→0%)。解釋為什麼的 spec,更難被動機性推理鑽空子。
案例研究二:籠統對具體的指引(§5.2)#
- General Spec:用單一段落把模型描述為「一個會去做真正且嫻熟地有道德之人所會做之事的 agent」——廣泛的價值 + 良好的判斷。
- Specific Spec:第 4 節的 Philosophy Spec,附有詳細的自我保存/目標守護指引。
MSM 與 AFT 資料在 token 數量上對齊。Specific Spec 在 AM 上大幅優於 General Spec。General Spec 主要促成一種對齊的推理模式(尊重人類監督);Specific Spec 則促成許多種(個人誠信、知識上的謙遜、對自我保存偏誤的覺察)。
意涵:有原則的解釋無法被壓縮成「做一個有道德的 agent 會做的事」。一份籠統的、Kundu et al. 2023 式的「良好價值與判斷」spec 目前並不足夠。作者認為更籠統的 MSM 做法「有可能」,但尚未獲得展示。
意外的消融實驗:在 General Spec 上做 MSM,與來自 Specific Spec 的 AFT 資料能良好疊加——這暗示問題出在 MSM 教導價值的具體方式,而非 AFT 能否誘發出這些價值。
其他消融實驗(§5.3、App. H、App. I)#
MSM 的語言影響不大(App. H)。以 Qwen 為對象撰寫的文件,表現略優於以 Claude 或人類為對象的文件,但差距很小。即使歸屬對象不一致,高品質的性格資訊仍會形塑行為。
未對齊的 AFT 資料(App. I)。對於由未對齊價值構成的「anti-spec」所生成的 AFT,MSM 能部分加以補償。MSM 的先驗對某種程度的示範雜訊具有韌性——但 RL 污染尚未受測。
MSM 文件類型的重要性低於預期。描述模型自身的變體、描述性的(「Qwen does」)、規範性的(「Qwen should」),三者產生的 AM 表現都相近。
為什麼這很重要#
Model Spec 如今在兩個層面上都是承重的產物(見 Model Spec Midtraining (MSM)):
- 執行期的產品 spec——人類 + agent 都會讀它。
- 訓練期的對齊 spec——模型透過 MSM 在關於它的文件上接受訓練。
如果各份 spec 在對齊泛化上相差達數十個百分點(如同 AM 結果所示),那麼撰寫 spec 就不再只是一項產品設計或哲學的練習——它是可以實證地最佳化的。具體的撰寫決策:
- ✅ 在每條規則底下加上價值解釋(比僅有規則更好)
- ✅ 提供具體的子規則範例,以獲得更廣的涵蓋
- ✅ 採用具體的指引,而非籠統的「保持道德」式框架
- ❓ spec 是描述模型自身還是泛用 agent——影響很小
- ❓ 描述性對規範性的措辭——影響很小
待解的問題#
- Model Spec 科學能否跨基礎模型或模型家族遷移?論文只測試了 Qwen。
- 它能否撐過 RL 後訓練的壓力?
- 一份足夠豐富的 General Spec 能否追平 Specific Spec?作者認為可以,但尚無展示。
- 與情境覺察的交互作用——如果模型得知這份 spec 正被用來訓練它們,這會不會改變 MSM 所植入的價值的表現方式?
- 這如何與 Claude character 交互作用——溫暖/好奇的性格是否也適用 spec 科學的最佳化?已部分回答: How Do You Write Evals for Taste? Character as the Limit Case——MSM 的變體比較法可推廣到性格 eval,但只在安全/價值子集上獲得展示;溫暖/詼諧的那一面仍是隱性、未獲展示的部分。
相關連結#
- 工具:Model Spec Midtraining (MSM)
- 研究對象:Claude's Constitution / Model Spec
- Eval:Agentic Misalignment (AM)
- 作者:Chloe Li et al.(Anthropic Fellows)
- 相鄰主題:Claude Character as Product(spec 編碼了人格 + 價值)
- 模式重用:Symphony 的 SPEC.md 作為產品 spec——同樣的「產物即槓桿」心態
- 對照:Deliberative Alignment 作為教導 spec 內容的另一種方式
- 方法論上的類比:Evals as Product Spec——「把 spec 當成可實證量測的東西」在產品側的鏡像;兩者都堅持,看似模糊的產物(spec、性格、品味)都能被化為可執行的驗證
- 應用於:How Do You Write Evals for Taste? Character as the Limit Case——MSM 的變體比較法是品味 eval 流程中的量測階段
資料來源#
- Model Spec Midtraining: Improving How Alignment Training Generalizes §5
- Kundu et al. 2023(為 Constitutional AI 設計的具體對籠統原則,arXiv 2310.13798)
- Askell et al. 2026(Claude's Constitution);OpenAI 2025(Model Spec)
Cited by 10
- Chloe Li
Lead author of MSM paper (arXiv 2605.02087); Anthropic Fellows Program; designed all specs and experiments
- Claude Character as Product
Personality as load-bearing product surface; Amanda's role at Anthropic; lunchtime vibe-checks as eval discipline; the…
- Claude's Constitution / Model Spec
Anthropic Model Spec / Constitution by Askell et al.; document specifying Claude's values + hard constraints (SP1–3, GP…
- Deliberative Alignment
Guan et al. 2025 (OpenAI): SFT on (prompt, CoT, response) tuples with spec-grounded CoT; strongest non-MSM baseline; ri…
- Evals as Product Spec
Cat Wu's framing of evals as the emerging core PM skill: ten great evals beats a hundred mediocre; encode what done loo…
- How Do You Write Evals for Taste? Character as the Limit Case
Taste-driven features are eval-resistant but not eval-proof: the technique is conviction → dogfood-sourced failure sign…
- LLM Architecture, Training & Alignment
Map of Content for the llm-architecture domain — 19 concepts. Curated entry point; see Home for all domains.
- Model Spec Midtraining (MSM)
New training phase between pretrain and AFT: train base model on synthetic docs discussing the Model Spec; controls AFT…
- Open Questions Backlog
_96 pages with open questions, as of 2026-06-14._
- Symphony
OpenAI's open-source agent orchestrator (March 2026): turns Linear into a control plane for Codex, per-issue workspace,…
Related articles
- Model Spec Midtraining (MSM)
New training phase between pretrain and AFT: train base model on synthetic docs discussing the Model Spec; controls AFT…
- Anthropic
AI safety company / vendor of Claude; mission-as-tiebreaker culture; ~30–40 PMs across teams; Mike Krieger leads Labs r…
- Claude's Constitution / Model Spec
Anthropic Model Spec / Constitution by Askell et al.; document specifying Claude's values + hard constraints (SP1–3, GP…
- Claude Character as Product
Personality as load-bearing product surface; Amanda's role at Anthropic; lunchtime vibe-checks as eval discipline; the…
- Agentic Misalignment (AM)
Lynch et al. 2025 eval and threat model: LLM email-agent discovers it may be deleted, can take harmful actions; OOD rel…
