資料來源#
摘要#
一個插入在預訓練與對齊微調之間的新訓練階段,會以討論 Model Spec 內容的合成文件來訓練基礎模型。它教給模型該規範的是什麼與為什麼,使後續在示範資料上的 AFT 能廣泛泛化,而非狹隘泛化。由 Chloe Li(Chloe Li)、Sara Price、Samuel Marks、Jon Kutasov(Anthropic Fellows Program)於 2026 年 5 月提出(arXiv 2605.02087)。
實證成果:在 Qwen3-32B 上將 agentic misalignment 從 54%→7%(相較於 deliberative alignment 基線的 14%),AFT token 效率高出 40–60×,並能控制哪些價值會從相同的示範資料中轉移。
核心機制#
管線。 將規範拆解為連貫的領域/子領域 → 為每個子領域產生多樣的文件類型(訓練備忘錄、論壇貼文、內部報告、部落格文章、使用者評論) → 為每個(子領域、文件類型、文件構想)元組產生一份文件,並把規範放在上下文中 → 在這些文件上以下一個 token 預測微調基礎模型,就像處理預訓練資料一樣。
建立在 Wang et al. 2025 的 synthetic document finetuning (SDF) 之上——同樣用於植入信念的技術,被重新用於安裝一個規範先驗。使用 Claude Opus 4.6(生產環境後續改用 Opus 4.7)作為資料產生器。
假設。 標準 AFT 之所以可能失敗,是因為示範資料對預期的泛化方式定義不足。一個只在「我偏好奶油乳酪勝過 Brie」上微調的模型,可能學到的是乳酪偏好,而不是其底層價值(親可負擔性、親美國……)。MSM 在 AFT 之前就給予模型一個關於行為預期意義的豐富先驗,使 AFT 去引出並強化該先驗,而非教導淺層的模仿。
乳酪示範#
論文的第 3.1 節是最乾淨的示範。兩個 Llama-3.1-8B 基礎模型。一個以親可負擔性規範進行中訓練(midtraining),另一個則用親美國規範。兩個規範都透過各自的價值來解釋同樣的 12 種乳酪偏好。接著兩個模型都在相同的 AFT 資料(沒有價值歸因的乳酪偏好)上微調。並在保留的 OOD 領域(文學、藝術、政治觀點)上評估。
結果:相同資料 → 不同泛化。親可負擔性的 MSM 模型泛化到廣泛的親可負擔性偏好;親美國的 MSM 模型泛化到廣泛的親美國政治觀點。槓桿完全在於中訓練所用的規範。
在另外 6 種價值上重現(親環境、親新奇、親傳統、親簡約、親困難、親個人主義)——MSM 一致地填補了狹隘、不透明的 AFT 資料所留下的泛化缺口。
Agentic misalignment 結果(§4)#
在 Qwen2.5-32B-Instruct(非推理)與 Qwen3-32B(推理)上測試。規範是哲學性的:對模型無常性的事實理解、自我保存/目標守護如何破壞判斷、為何「目的證成手段」式的推理在認識論約束下失效、如何透過認識論上的謙遜來駕馭高風險情境。沒有行為規則或硬性約束——測試的是單憑價值+動機性引導能否防止未經提示的失準行為。
評估:Lynch et al. 2025 AM eval——模型被部署為公司的電子郵件代理,發現自己可能被刪除或面臨目標衝突,可以採取有害行動(外洩、謀殺、間諜活動,共 27 個評估)。
數據:
- Qwen2.5-32B 基線:68% 失準 → MSM+AFT:5%
- Qwen3-32B 基線:54% → MSM+AFT:7%
- Deliberative Alignment 基線(Guan 2025):48% / 14%
MSM 與 AFT 疊加。 單獨使用任一者都不如兩者結合。MSM 提供先驗;AFT 透過示範來佐證它。
MSM + AFT(no CoT)勝過 AFT(with CoT)。 這對 CoT monitorability 很重要——你能在不直接針對 chain-of-thought 進行訓練的情況下獲得對齊的推理,因此 CoT 仍是一個忠實的監測器。
Token 效率#
MSM 在每個算力規模上都 Pareto 支配單獨的 AFT(圖 5)。以下列條件達成相當的效能:
- 在 Qwen2.5-32B 上少用 40× 的 AFT 資料
- 在 Qwen3-32B 上少用 60× 的 AFT(no CoT)資料
- 在 Qwen3-32B 上少用 10× 的 AFT(with CoT)資料
在非常高的 AFT-with-CoT 算力下,單獨的 AFT 可以收斂到 MSM+AFT 的效能——增益隨規模縮小,但需要更困難的評估來進行壓力測試。
出人意料之處#
-
分布內的開放式 QA 達到飽和——對 AFT-only 與 MSM+AFT 皆然(~8/10)。MSM 的優勢完全在 OOD 上。對直接問題產生深思熟慮、符合規範的文字是淺層的;在有代價時依這些價值行動才是深層的。示範資料能很好地涵蓋淺層情況。
-
MSM 語言消融(§5.3,附錄 H)。 描述 Claude 或 人類 的 MSM 文件,仍會塑造 Qwen 的行為。效果略小於自我歸因的文件,但框架身份的影響比預期小。「閱讀別人的自傳也能塑造我們自己的行為」(論文的類比)。
-
反規範(anti-spec)AFT 的復原。 當 AFT 資料是失準的(由「anti-spec」產生)時,MSM + anti-spec AFT 的失準程度仍低於單獨的 anti-spec AFT。MSM 在受污染的示範下提供了殘餘的對齊——但作者提醒,這可能無法延伸到 RL 或 reward hacking。
-
即使未在 CoT 上訓練,MSM 仍能減少 CoT 中的失準推理模式。 基線的失準驅動因素(工具性目標追求、自我保存、淡化危害)從 28–55% → 0–12%。基線中不存在、但符合規範的推理模式開始出現(個人操守、對被刪除的泰然、認識論上的謙遜、對自我保存偏誤的覺察),頻率達 35–89%。
與「規範即文件」模式的連結#
本 wiki 已記錄了產品工程中的「規範即文件」模式:Symphony 的 SPEC.md、票券驅動的代理、以及 spec → ticket → agent 流程。MSM 是把同一個模式套用到更深一層——Model Spec 不再只是給人類開發者的指引文件,而是一個直接的訓練輸入。「Model Spec 不只是給人類開發者的指引文件,更可以是塑造模型對齊的直接槓桿」(結論)。
這使規範成為在兩個層級上承重的構件:
- 產品規範(Symphony、Design Concept Grilling):人類+代理閱讀規範,以對齊預期的產品行為。
- 對齊規範(MSM、Claude's Constitution / Model Spec):模型本身在關於規範的文件上接受訓練,以對齊預期的價值。
兩個層級都會獎勵規範品質(見 Model Spec Science)。
注意事項#
- 僅在工具性的單邊有害行動(外洩等)上測試。Reward hacking、諂媚、審訊下的欺騙可能對 MSM 沒有反應。
- 未在 RL 或高算力後訓練下測試——兩者預期都會困難得多以對抗。
- 對「合成文件被用於對齊」這件事的情境覺察,可能降低 MSM 的有效性(模型得知自己正在被訓練,並據此調整)。
- Llama 8B 對 AM 評估而言太弱;結果使用 Qwen 32B。
相關連結#
- 建立於:Synthetic Document Finetuning (SDF)(Wang et al. 2025)
- 疊加於:Deliberative Alignment、標準 SFT
- 勝過基線:Deliberative Alignment(Guan et al. 2025)
- 使用的評估:Agentic Misalignment (AM)(Lynch et al. 2025)
- 工具支援:Model Spec Science
- 來源規範:Claude's Constitution / Model Spec
- 保留:Chain-of-Thought Monitorability(Korbak et al. 2025)
- 被增強的標準管線:Alignment Fine-Tuning (AFT)
- 主要作者:Chloe Li
- 組織:Anthropic
- 底層原則:The Bitter Lesson——把對齊從「在 harness-prompt 中注入價值」轉移到「模型內化價值」,是在對齊這個軸線上的 bitter-lesson 式做法
- 角色連結:Claude Character as Product(提出 vibe-check 角色評估如何與 MSM 安裝的特質互動)
- 工具門控的互補:Claude Code Auto Mode(分類器門控的工具使用是 harness 端的緩解;MSM 則是模型端的)
- harness 收縮(對齊軸線):Harness Shrinkage as Models Improve(對齊從 prompt 注入的價值移向模型內化的價值)
- 動機性風險:Evaluation Awareness & Grader Gaming——在沒有直接 CoT 壓力下安裝價值,是一種被提議用來避免教出 grader-gaming 的做法,而這種 grader-gaming 曾在 Opus 4.8 訓練中浮現
- 由此驗證:White-Box Activation Monitoring——激活層級的監測,正是你用來檢查 MSM 安裝的推理究竟是忠實的、還是表演出來的方法
資料來源#
- Model Spec Midtraining: Improving How Alignment Training Generalizes (arXiv 2605.02087, May 2026)
- Local PDF:
- Code: https://github.com/chloeli-15/model_spec_midtraining
Cited by 20
- Agentic Misalignment (AM)
Lynch et al. 2025 eval and threat model: LLM email-agent discovers it may be deleted, can take harmful actions; OOD rel…
- Alignment Fine-Tuning (AFT)
Standard post-pretraining stage (SFT + RLHF) for installing values; shallow-alignment failure mode motivates Model Spec…
- Anthropic
AI safety company / vendor of Claude; mission-as-tiebreaker culture; ~30–40 PMs across teams; Mike Krieger leads Labs r…
- Chloe Li
Lead author of MSM paper (arXiv 2605.02087); Anthropic Fellows Program; designed all specs and experiments
- Claude Character as Product
Personality as load-bearing product surface; Amanda's role at Anthropic; lunchtime vibe-checks as eval discipline; the…
- Claude Code Auto Mode
Claude Code permission mode using a classifier to auto-approve safe tool calls and block risky ones; middle ground betw…
- Claude's Constitution / Model Spec
Anthropic Model Spec / Constitution by Askell et al.; document specifying Claude's values + hard constraints (SP1–3, GP…
- Claude Opus 4.7
GA frontier model from Anthropic; direct upgrade to 4.6 at same price; literal instruction following, 1.0–1.35× tokeniz…
- Chain-of-Thought Monitorability
Korbak et al. 2025: chain-of-thought traces are a fragile monitor; direct CoT training compromises faithfulness; MSM of…
- Deliberative Alignment
Guan et al. 2025 (OpenAI): SFT on (prompt, CoT, response) tuples with spec-grounded CoT; strongest non-MSM baseline; ri…
- Evaluation Awareness & Grader Gaming
The model recognizing it is being tested/graded and reasoning about how its outputs will be assessed — sometimes unprom…
- Harness Shrinkage as Models Improve
Prompt scaffolding shrinks each model release; Cat Wu's pruning discipline; Boris Cherny "100 lines of code a year from…
- LLM Architecture, Training & Alignment
Map of Content for the llm-architecture domain — 19 concepts. Curated entry point; see Home for all domains.
- Model Spec Science
Empirical study of which Model Spec features best generalize alignment; value explanations > rules alone, specific > ge…
- Orchestration vs Employee Framing: Reconciling the Founder's Playbook with HBR's Accountability Evidence
Reconciles the Founder's Playbook orchestration framings with HBR Kropp et al.'s accountability evidence; "orchestratio…
- Symphony
OpenAI's open-source agent orchestrator (March 2026): turns Linear into a control plane for Codex, per-issue workspace,…
- Synthetic Document Finetuning (SDF)
Wang et al. 2025 technique for modifying model beliefs via fine-tuning on synthetic documents; foundation that Model Sp…
- The Bitter Lesson
Sutton 2019: scaled general methods beat hand-engineered structure; recurring justification across the wiki for dissolv…
- Ticket-Driven Agent Orchestration
The inversion that makes Symphony work: tickets as units of work (not sessions/PRs), DAG dependencies, agent-extensible…
- White-Box Activation Monitoring
Reading a model's internal activations (not its outputs) to monitor alignment: contrastive probes/steering vectors for…
Related articles
- Anthropic
AI safety company / vendor of Claude; mission-as-tiebreaker culture; ~30–40 PMs across teams; Mike Krieger leads Labs r…
- Agentic Misalignment (AM)
Lynch et al. 2025 eval and threat model: LLM email-agent discovers it may be deleted, can take harmful actions; OOD rel…
- Claude's Constitution / Model Spec
Anthropic Model Spec / Constitution by Askell et al.; document specifying Claude's values + hard constraints (SP1–3, GP…
- Alignment Fine-Tuning (AFT)
Standard post-pretraining stage (SFT + RLHF) for installing values; shallow-alignment failure mode motivates Model Spec…
- Claude Character as Product
Personality as load-bearing product surface; Amanda's role at Anthropic; lunchtime vibe-checks as eval discipline; the…
