資料來源#
摘要#
Anthropic 2026 年 5 月的安全框架(eBook),用於在企業中部署自主 agent。它把既有的 Zero Trust 教義——不信任任何、驗證一切、假設 breach 已經發生——套用到 agentic 系統;而現有的以周界與人類身分為基礎的安全模型並非為此而設計。框架的核心主張:agent 面臨獨特的威脅景觀,且**「少一項能力,攻擊者就會從缺口下手。」** 它以三層能力成熟度模型(Foundation/Enterprise/Advanced)加上八階段實作流程來組織,並始終被框定為對 AI-Accelerated Offense 的回應。
這是一個樞紐頁:下方安全概念叢集(Least Agency、Blast Radius (Agentic)、Agentic Prompt Injection、Agent Supply Chain Risk、Memory and Context Poisoning、Agent Identity and Authentication、Impossible, Not Tedious (Design Test)、Autonomous Defense)都以它為共同參照點。
三項 Zero Trust 原則#
Zero Trust 可追溯至 Stephen Paul Marsh 1994 年的博士論文;在周界 breach 之後獲得動能,並由 NIST SP 800-207(2020)與 NSA 的 Zero Trust Implementation Guides (ZIGs)(2026)加以成文化。三項原則定義如下:
- 永不信任、始終驗證——無論請求來源為何,每一項存取請求都須經過驗證與授權。內部請求與外部請求受到同等嚴格的審查。
- 假設 breach——在預期會遭入侵的前提下設計;重點是限制損害,而不只是阻止入侵。以身分分段,使單一遭入侵不會取得他人的存取權。(這就是 Blast Radius (Agentic) 的圍堵姿態。)
- least privilege——僅授予特定任務所需的最小存取權。OWASP 的 Least Agency 將此延伸到 agent(不僅限制 agent 能存取什麼,還限制每個工具能做什麼、多常、在哪裡)。
為何 agent 會打破現有安全模型#
Agentic 系統與傳統軟體的差異帶來新的曝險:
- 自主多步驟執行——agent 在每一步都無需人工核准即可行動,遭操控的 agent 會以機器速度造成傷害。
- 工具存取(API、資料庫、檔案系統、MCP)——遭入侵的工具堆疊可導致資料竊取、程式執行與破壞。
- 指令解讀——攻擊者可利用的歧義(Agentic Prompt Injection)。
- 脈絡持續性——跨工作階段的記憶帶來新的資料保護需求(Memory and Context Poisoning)。
- 多 agent 協調——隱性信任關係讓攻擊者入侵一個 agent 後即可橫移。
為人類使用者而建的傳統身分系統難以容納 agent;agent 常以提升權限或共用服務帳戶執行——這種錯配正是 Agent Identity and Authentication 的動機。
三層能力模型#
框架中的每一項控制都跨三個層級規格化。每一層都建立在前一層之上(前進代表強化,而非取代):
- Foundation——較小規模/初期部署的最低可行安全。關鍵在於,框架主張 AI-Accelerated Offense 已抬高 Foundation 底線:僅靠摩擦的控制(輪替長效 API 金鑰、SMS MFA、速率限制)已不再合格。短期權杖、密碼學根植的身分、以身分為基礎的隔離,以及自動化的一輪初篩,現在是入門要求。
- Enterprise——具相當規模組織的標準實務;為多部署複雜度與每次 compromise 的實質業務影響增加深度。
- Advanced——對多數組織是願景;對高風險/嚴格監管部署(國家安全、受監管金融/醫療)則是基線。硬體支援的身分、機密運算、持續授權、以 ML 為基礎的異常偵測。
明確預測:「隨著領域演進,Advanced 層級將成為 Enterprise 標準,Enterprise 將成為 Foundation。」 層級是路線圖,而非終點。
八大控制領域(第三部分)#
層級表涵蓋八個能力領域,每一項都是 agent 的 Zero Trust 控制面:
- Agent 身分與驗證——見 Agent Identity and Authentication(密碼學 ID → X.509 → 硬體 attestation;短期權杖 → mTLS → 硬體綁定憑證)。
- 存取控制與權限管理——RBAC+deny-by-default → ABAC → 持續授權;靜態角色 → 動態範圍劃定 → JIT/JEA;以身分為基礎的隔離 → 沙箱化 → 硬體隔離。這是 Least Agency 與 Blast Radius (Agentic) 的執行層。
- 可觀測性與稽核——動作記錄、不可變稽核軌跡、可追溯性/出處鏈。在一切之前先量測停留時間與覆蓋率。
- 行為監控與回應——基線 → 異常偵測 → 自動化回應。原則:自動化事件周邊的文書工作,而非自動化決策。
- 輸入驗證與輸出控制——輸入淨化(schema、spotlighting、constitutional classifiers)與輸出過濾;防禦 Agentic Prompt Injection。
- 完整性與復原——版本控制/簽章/不可變設定;rollback → 自動 rollback → 自我修復。反直覺的基礎設施反射:啟用自動更新,因為人工核准延遲現在才是更大的風險。
- AI 治理政策——可接受使用+事件回應、治理委員會、自動化政策執行;處理 Shadow AI。
八階段實作流程(第四–五部分)#
- 辨識需求——在動工前對齊安全/法務/合規/業務。
- 管理供應鏈風險——AI-BOM、OpenSSF Scorecard、相依性稽核、AI vendoring(Agent Supply Chain Risk)。
- 定義 agent 邊界——唯一身分、核准/禁止動作、升級觸發條件、範圍限制,以及刻意的 Blast Radius (Agentic) 評估,並套用 Impossible, Not Tedious (Design Test)。
- 防禦 prompt injection——輸入隔離、constitutional classifiers、限制攻擊面(Agentic Prompt Injection)。
- 保護工具存取——工具 allow-listing、能力限制、參數驗證、沙箱化、核准升級。
- 保護 agent 憑證——短期/硬體綁定/每 agent 憑證、JIT、ABAC(Agent Identity and Authentication)。
- 保護 agent 記憶——記憶隔離、完整性驗證、保留政策(Memory and Context Poisoning)。
- 量測關鍵指標——停留時間、覆蓋率、可解釋性、行為符合度、偵測速度。
第五部分延伸到 Autonomous Defense——以足夠快的速度執行安全營運,以對上 AI 加速的對手。
法規對齊#
Zero Trust 與 HIPAA、FINRA、GDPR、FedRAMP 及 EU AI Act 對齊;美國要求所有聯邦機構在 2027 年前採用 Zero Trust,並已發布來自美國(CISA/NSA/NIST)、英國(NCSC)與澳洲(Home Affairs)的指引。Anthropic 指出它是首批取得 ISO 42001(負責任 AI)認證的 AI 公司之一。
相關連結#
- AI-Accelerated Offense——「為何是現在」:被壓縮的 exploit 時間線是框架所述的動機;Foundation 底線正是為此而提高
- Least Agency——least privilege 的 OWASP 延伸;框架對 agent 的授權原則
- Blast Radius (Agentic)——「假設 breach」原則所要圍堵的度量單位
- Agent Identity and Authentication——控制領域 1;其他每一項控制的基礎
- Agentic Prompt Injection——第 4 階段與輸入驗證領域所要防禦的威脅
- Agent Supply Chain Risk——第 2 階段所管理的威脅
- Memory and Context Poisoning——第 7 階段所要防護的威脅
- Impossible, Not Tedious (Design Test)——套用於每一項控制的常設設計審查問題
- Autonomous Defense——第五部分;以自主威脅的速度執行防禦營運
- MCP and Computer Use——MCP 是具名的高風險工具面(tool poisoning、自行架設伺服器)
- Claude Code Best Practices——Claude Code 的 deny-by-default 權限、沙箱化、受管設定在全文被引用為 Zero Trust 對齊的參考實作
- Anthropic——框架出版方
- OWASP——agentic 威脅分類法與「least agency」一詞的來源
- Agentic Misalignment (AM)——不同但相鄰:Zero Trust 處理外部誘導的 agent 傷害;agentic misalignment 是自我動機的傷害。兩者都需要相同的爆炸半徑圍堵
開放問題#
- 框架把每一則 Claude Code「Pro-tip」都視為參考實作。框架有多少是廠商中立,又有多少在暗含 Anthropic 技術堆疊?
- 「Foundation 底線提高」意味著基線在移動。層級階梯實際上移多快?由誰裁決(NIST/NSA 節奏 vs. 模型能力節奏)?
- 框架明確表示它不是法律/合規保證。自證的 Zero Trust 成熟度在何處與可稽核的法規要求交會?
資料來源#
- Zero Trust for AI Agents —— Anthropic eBook,Zero Trust for AI Agents: A security framework for deploying autonomous AI agents in the enterprise(2026-05-18)
Cited by 18
- Foundation → Enterprise → Advanced: Is the Agent Access-Control Jump a Cliff?
No cliff — Enterprise (ABAC + dynamic privilege elevation with return-to-baseline + mTLS + sandboxing) is the pragmatic…
- Agent Identity and Authentication
The foundation control for agentic Zero Trust: cryptographically-rooted per-agent identity (→X.509→hardware attestation…
- Agent Supply Chain Risk
Runtime-composed agent ecosystems expand the supply-chain attack surface: model poisoning (250 docs backdoor a 13B mode…
- Agentic Misalignment (AM)
Lynch et al. 2025 eval and threat model: LLM email-agent discovers it may be deleted, can take harmful actions; OOD rel…
- Agentic Prompt Injection
Direct and indirect injection of malicious instructions into an agent; LLMs cannot reliably distinguish information fro…
- AI-Accelerated Offense
Frontier models compress the vulnerability-to-exploit timeline from months to hours at marginal dollar cost; both attac…
- Anthropic
AI safety company / vendor of Claude; mission-as-tiebreaker culture; ~30–40 PMs across teams; Mike Krieger leads Labs r…
- Autonomous Defense
Running security operations at the speed of AI-accelerated threats: put a model at the front of the alert queue, automa…
- Blast Radius (Agentic)
The potential damage if an agent is compromised; the unit Zero Trust's 'assume breach' posture is built to contain via…
- Claude Code
Anthropic's agentic coding product; created by Boris Cherny late 2024; TypeScript/React; CLI/desktop/web/mobile/IDE sur…
- Impossible, Not Tedious (Design Test)
Zero Trust design test for agentic security: does a control make the attack impossible, or just tedious? Friction-only…
- Least Agency
OWASP term extending least privilege to agents: constrain not just what an agent can access but what each tool can do,…
- LLM-Driven Vulnerability Research
Claude Mythos Preview's emergent cybersecurity capabilities: autonomous zero-day discovery, full exploit chains, and An…
- MCP and Computer Use
Anthropic's two complementary connector mechanisms: MCP for structured programmatic access (Salesforce/Drive/Gmail/Slac…
- Memory and Context Poisoning
Corruption of persistent agent memory that influences behavior long after the initial injection; includes RAG poisoning…
- AI Engineering & Agent Tooling
Map of Content for the ai-engineering domain — 36 concepts. Curated entry point; see Home for all domains.
- Open Questions Backlog
_96 pages with open questions, as of 2026-06-14._
- OWASP
Open Worldwide Application Security Project; source of the agentic threat taxonomy cited throughout Anthropic's Zero Tr…
Related articles
- Least Agency
OWASP term extending least privilege to agents: constrain not just what an agent can access but what each tool can do,…
- Agentic Prompt Injection
Direct and indirect injection of malicious instructions into an agent; LLMs cannot reliably distinguish information fro…
- Agent Supply Chain Risk
Runtime-composed agent ecosystems expand the supply-chain attack surface: model poisoning (250 docs backdoor a 13B mode…
- Blast Radius (Agentic)
The potential damage if an agent is compromised; the unit Zero Trust's 'assume breach' posture is built to contain via…
- Claude Code
Anthropic's agentic coding product; created by Boris Cherny late 2024; TypeScript/React; CLI/desktop/web/mobile/IDE sur…
