Howardism | METR

資料來源#

When AI builds itself

摘要#

METR（Model Evaluation & Threat Research）是一個評估前沿 AI 能力的獨立組織，最廣為人知的是其 時間範圍測量：模型能可靠地獨立完成任務的長度。其資料是 Anthropic Institute〈When AI builds itself〉文章所依據的外部基準核心，也構成了本 Wiki 任務時間範圍擴展頁面的基礎。

它的工作#

時間範圍。 報告模型在一組任務中達到 50% 可靠度時所對應的任務持續時間（在 80% 可靠度下也呈現相同趨勢）。METR 的主要發現是，這個範圍大約每四個月翻倍，高於早期約七個月翻倍的速度——這是能力正在加速而不只是提升的量化證據。
前沿模型的長任務測量。 METR 發現，Claude Mythos Preview 能工作「至少」16 小時，並且「已達 [METR] 在不新增任務的情況下所能測量的上限」——也就是說，前沿模型已開始超越基準測試自身的天花板。
獨立的第三方訊號。 由於 METR 位於各實驗室之外，其數據可作為 Anthropic 內部加速主張的外部佐證，例如約 8 倍的程式碼產出量（AI 加速 AI 開發）。
被其他評估者重複使用。 UK AI Security Institute 於 2026 年 7 月進行的 test-time-compute 研究，使用 METR 的 211 項軟體工程任務集（以及 AISI 自有的網路安全任務），並延伸了時間範圍的框架：研究顯示，時間範圍及其翻倍速度都取決於預算（見任務時間範圍擴展）。

待解決的問題#

當目前的任務組合飽和後，METR 將建立哪些新任務，以測量持續數天及數週的時間範圍？
METR 也執行了顯示開發者對 AI 提升效果的自我估計過高的研究——它要如何將這種懷疑態度，與自身陡峭的時間範圍曲線調和？進一步釐清： Researcher Uplift from Code Output — 一位 METR 建模者（Kwa）正好處理了這個矛盾：他折減自我報告（引用 METR 關於主觀感受為 +20%、實際結果為 −20% 的發現），並指出冗長程度的影響，但仍從一個客觀的 8 倍程式碼產出量數據，而非自我估計，推算研究人員提升幅度超過 2 倍——也就是說，METR 懷疑的是自我報告指標，而不是加速現象本身確實存在。

資料來源#

When AI builds itself — 引用 METR 的時間範圍，以及 METR 對 Mythos Preview「16 小時／已達我們可測量範圍上限」的評估

METR

資料來源#

摘要#

它的工作#

相關連結#

待解決的問題#

資料來源#