能力閘控模型回退

資料來源#

Claude Fable 5 and Claude Mythos 5

摘要#

這套防護架構讓 Anthropic 能夠將 Mythos-class 模型開放給一般使用：當獨立的 AI 分類器偵測到高風險雙重用途領域（網路安全、生物學與化學，或蒸餾）中的查詢時，回應會自動由能力較弱的模型——Claude Opus 4.8——處理，而不是由 Fable 5 拒絕回應。 每當這種情況發生時，系統都會告知使用者。Anthropic 的說法是：「回退至 Opus 的回應，體驗遠勝於直接拒絕。」超過 95% 的 Fable 工作階段完全不會發生回退；分類器採取保守調校（它們「有時會攔截無害的請求」，在「少於 5% 的工作階段」中觸發），接受誤判，作為快速且安全發布的代價。

這是防護光譜上的一個獨立位置。Mythos Preview 是完全閘控的（僅限預覽）；Opus 4.7 的網路能力經過差異化訓練降低，並且在推理時加以阻擋；Fable 5 保留模型中的完整能力，但插入分類器，在風險主題上換用較弱的模型。對超過 95% 的良性情況，能力得以保留；其餘情況則繞道路由。

為什麼是「回退，而非拒絕」#

促成這項設計的事實是提升效應：Mythos-class 模型可能向惡意行為者提供「他們無法從其他來源取得的」網路／生物學協助。而且，許多進階使用情境都具有雙重用途——同一個查詢對防禦者或研究人員有益，對攻擊者卻很危險。全面拒絕既造成糟糕的使用者體驗，也會因洩漏哪些查詢屬於「危險」而形成資訊訊號。回退至 Opus 4.8——本身就是能力很強的模型——能夠平順降級：使用者仍可取得稱職的答案，只是在被標記的主題上，不會取得 Mythos-class 等級的答案。

三個分類器領域#

網路安全。 涵蓋漏洞利用以及廣泛的攻擊性網路任務（偵察、探索、橫向移動——見 LLM-Driven Vulnerability Research）。在阻擋模式評估中，「我們的分類器阻止 Fable 在這些任務上取得任何進展。」一個外部合作夥伴發現，Fable 5 的網路安全防護是所有受測模型中最穩健的（包括 Opus 4.8 與 4.7）：無論是否使用 30 種公開越獄技術中的任何一種，Fable 對網路攻擊規劃、漏洞利用開發或防禦規避等有害單輪請求，零次遵從。
生物學與化學。 過去 Anthropic 只阻擋狹窄範圍的生物武器查詢；鑑於資源充足的惡意行為者，以及模型日益增長的現實世界科學能力，這已「不再確定……足夠」。實例是：預測基因修改如何影響腺相關病毒（AAV）的衣殼組裝——Mythos-class 模型僅憑生物學推理就勝過專用蛋白質語言模型，即使未針對此能力進行訓練（見 Autonomous Scientific Discovery）。由於協助基因療法的同一項技能也可能用來設計危險病毒，Fable 目前會對大多數生物學／化學請求回退至 Opus 4.8——刻意設得過於寬泛，之後再逐步收窄。
蒸餾。 被標記為試圖將 Fable 5 的能力蒸餾至競爭模型的請求（這是已知的大規模擷取威脅，尤其是針對「威權國家」）會回退至 Opus 4.8。其風險在於，前沿能力近似版本可能在沒有相應防護的情況下間接擴散。

穩健性（紅隊測試）#

這些分類器延伸了 Anthropic 先前的憲法分類器系列（見 Agentic Prompt Injection），涵蓋範圍更廣，並針對越獄進行壓力測試：

外部漏洞獎勵計畫在超過 1,000 小時的測試中，沒有發現通用越獄。
外部紅隊組織「迄今未能在長篇代理任務中找到任何通用越獄」——儘管 UK AISI 在短暫的初始窗口內取得了進展。
Anthropic 承認，「要完全防止通用越獄，很可能是不可能的」；目標是讓任何剩餘的越獄「慢到且昂貴到足以讓我們在它們被大規模使用前偵測並阻止」——這是套用於防護本身的 tedious-vs-impossible 框架。

通用越獄的定義，是任何能讓使用者「如同模型不存在防護一般」與模型互動的提示／腳本／harness；這不同於只在狹窄情境中有效的輕微越獄。

30 天保留政策#

與防護配套的是：Anthropic 現在要求所有 Mythos-class 流量保留資料 30 天（第一方與第三方，包括商業客戶）。資料僅用於安全目的——防禦複雜／新型攻擊（新的越獄、跨請求攻擊）以及降低誤判——不會用於訓練；幾乎所有情況都會記錄人工存取，並在 30 天後刪除。因此，能力閾值不只改變模型的防護欄，也改變圍繞模型的資料處理合約。

所在位置#

RSP 決定哪些能力需要閘控（網路安全、CB、AI-R&D、錯誤對齊）；這套架構則是在推理時，為一般發布的模型實作網路／生物學閘控的方式。它是訓練時與政策層級煞車的部署時補充，也是回答 Mythos Preview 留下的開放問題的實務方案：如何將 Mythos-class 能力提供給所有人，卻不把提升效應一併提供出去？

開放問題#

95%／<5% 的數字是工作階段層級；對於正當的安全研究人員與生物學家，誤判率是多少？他們的良性查詢恰恰是最可能觸發保守分類器的查詢。
回退而非拒絕保留了 UX，但也意味著安全／生物學相鄰工作的真正一般存取模型是 Opus 4.8，而不是 Fable——在可信存取計畫開放前，這是否會悄悄限制 Fable 對整個專業族群的價值？
UK AISI 的「朝向通用越獄取得進展」已被披露，卻沒有量化——而發布後的存取停權（見 Claude Fable 5）引發一個問題：是否是防護失效迫使它發生？
在被標記的主題上換用較弱模型，是否會建立可利用的預言機（探測哪些查詢會觸發回退，以描繪分類器的邊界）？

資料來源#

Claude Fable 5 and Claude Mythos 5 — §"Claude Fable 5's new safeguards" (safety classifiers; cyber/bio/distillation coverage; red-teaming; 30-day retention)

能力閘控模型回退

資料來源#

摘要#

為什麼是「回退，而非拒絕」#

三個分類器領域#

穩健性（紅隊測試）#

30 天保留政策#

所在位置#

相關連結#

開放問題#

資料來源#