H
Howardism
Plate IISyntheses機器翻譯 · machine-translatedENHOWARDISM

如何為品味撰寫 evals?性格作為極限案例

PublishedMay 30, 2026FiledEssayDomainSynthesesTagsDerivedEvalsLLM CharacterTasteMeasurementAlignmentReading8 minSourceAI-synthesised

由品味驅動的功能能抗拒 eval,卻並非無法 eval:方法是信念 → 來自 dogfooding 的失敗訊號 → A/B 變體量測(MSM 的方法)→ 約 10 個可詮釋、能編碼判斷的 evals;已在安全/價值觀上獲得驗證,在溫暖/機智上仍待解答

如何為品味撰寫 evals?性格作為極限案例的插圖

待解的悖論#

Cat Wu 同時持有兩個看似矛盾的主張。第一,性格是最難評估的東西——「寫程式比較容易,因為你可以驗證是否成功,而塑造性格則需要對 Claude 應該是誰抱持非常強烈的信念」Claude Character as Product)。第二,她點名 Amanda——塑造 Claude 性格的人——是真正擅長 evals 的人,「再加上團隊午餐時的 vibe-check」Evals as Product Spec)。所以品味能抗拒 eval,卻又有人能把它 eval 得很好。化解之道在於:品味的 eval 並不是一個硬套在模糊目標上的單一評分函數;它是一條把信念轉化為可量測產物的流水線(pipeline),而這三個來源概念各自提供了其中一個階段。

這套技術的三個階段#

階段一——信念是前提,而非 eval 本身#

讓品味變得可 eval 的東西,位於任何資料集的上游:「對 Claude 應該是誰抱持非常強烈的信念」Claude Character as Product)。Cat 把 Amanda 的角色拆解為兩項技能,正是此意——(1)有信念地闡述 Claude 應該是誰,以及(2)能夠說出為什麼某個回應符合或不符合性格(Claude Character as Product)。技能(2)就是 eval 技能:「對好的樣貌抱持強烈的意見+能把那個意見轉譯成可量測的產物……品味被呈現為一次函數呼叫」Evals as Product Spec)。少了信念,性格工作就會*「漂向平庸的平均值」*——任何建立在其上的 eval 也會如此,因為你沒有可供標註的真實基準(ground truth)。

這就是為什麼品味的 evals 無法外包給一份通用的評分準則(rubric):那份準則本身就是意見。這項技能之所以稀有,正是因為困難的是闡述,而非量測。

階段二——dogfooding 蒐集失敗模式;內省縮小搜尋範圍#

在你知道「不符合性格」在真實情境中長什麼樣子之前,你無法寫出這個 eval。有兩項相輔的技術為 eval 提供養分:

  • 質性優先的 vibe-checksDogfooding as Product Discipline):團隊午餐的儀式會問*「你對這個模型的感覺如何?」,並浮現出具體的失敗訊號——「這個模型太唐突」、「很愛寫記憶,但品質不確定」、「對自己測試得不夠」*(Claude Character as Product)。這就是 dogfooding 紀律在沒有編譯器的情況下評斷一個輸出。
  • 假設 → 資料探查Model Introspection Feedback):那股感覺訊號會指出該去看哪些記錄下來的資料,「而不是反過來。團隊的資料太多,無法盲目地挖掘;隱性的訊號縮小了該看哪裡的範圍」Claude Character as Product)。內省給出假設;品味的創造者給出方向;eval 則給出證明+回歸防護欄Evals as Product Spec)。

eval 是這套堆疊中最後一項工具,是緩慢而耐久的那一個——它把一個由 vibe-checks 最先發現、由資料探查最先證實的判斷,編成法典般固定下來。

階段三——把判斷化為可執行的產物,並跨變體加以量測#

Model Spec Science 是一個存在性證明,說明模糊、由價值觀塑形的目標能夠被實證地呈現——而且它提供了量測方法:

  1. 把你想要的東西寫成 specConstitution 是性格的文本面;「性格是切身體驗的那一面,constitution 則是文本上的規格」——Claude Character as Product)。
  2. 產出兩個變體,並量測哪一個的泛化能力較好。MSM 論文做的正是這件事:Rules Spec、Value-Augmented 與 Rule-Augmented 的對比,在 Qwen 上訓練,並以 Agentic Misalignment (AM) 行為 eval 評分(Model Spec Science §5.1)。各份 spec 之間的差距達數十個百分點——例如價值觀說明在不同模型家族中把政策誤用分別從 20%→2% 與 6%→0% 地削減。
  3. 把結果回讀進撰寫決策:價值觀說明勝過光禿禿的規則;具體的指引勝過籠統的「要合乎倫理」式框架(Model Spec Science §5.2)。這就是被最佳化過的品味。

這與 Evals as Product Spec 所描述的是同一個原語(primitive)——「一個編碼了判斷取捨的可執行產物」——而這兩個概念明確地互為鏡像:model-spec-science 是那個*「產品面的鏡像……兩者都堅持,看似模糊的產物(specs、性格、品味)都能被呈現為可執行的驗證。」*

一份具體的配方(綜合而成)#

把這三者結合起來:

  1. 陳述信念,化為一份簡短、帶有立場的 rubric(「低自我、輕鬆但稱職、誠實而不諂媚」——Claude Character as Product)。這就是 spec。
  2. 挖掘 dogfooding 訊號,找出反覆出現、不符合性格的失敗模式;把每一個都轉化為標註好的「符合性格/不符合性格」範例配對。
  3. 把判斷編碼成一個評分函數——一個由 LLM 評審組成的評議會(The Verifiability Thesis),或一份由人工評分的 rubric——以重現 Amanda 那套「為什麼這不符合性格」的判斷。
  4. 跨變體做 A/B(模型版本、spec 版本)並量測漂移——把 MSM 的方法套用到你的功能上。
  5. 保留約 10 個,而非 100 個。 每一個都必須可詮釋(一次失敗會告訴你哪裡壞了)、捕捉一個你原本得在審查中爭論不休的判斷,並維持低維護成本(Evals as Product Spec)。品味的 evals 遵守與任何 eval 相同的 Goldilocks 法則。

為什麼這是極限案例,以及它在哪裡仍然失靈#

性格是這個光譜中最困難的一端,原因有兩個結構性的:

  • 無法乾淨地做 A/B 隔離。 性格會與能力交互作用,因此*「很難說『Claude 很棒』有多少是來自性格、有多少是來自推理」*(Claude Character as Product)。eval 能量測「符合性格的程度」,卻難以把產品成果歸因於它。
  • 驗證者自身的邊界。 The Verifiability Thesis 的未解問題是:由 LLM 評審組成的評議會究竟適不適用於*「真正具有爭議的價值判斷,還是只適用於品質/一致性」*。性格(溫暖、機智)落在有爭議的區域,而非一致性的區域——所以評審本身就是在做品味,而且是遞迴地在做。

而證據上誠實的缺口在於:MSM 是在安全/價值觀子集上示範這套方法(監督、誠實、不以結果合理化手段——透過 agentic-misalignment 量測),而非在溫暖/輕鬆/機智的人格子集上。那個仍然活著的未解問題——「溫暖/好奇的人格是否同樣適用於 spec-science 式的最佳化?」Model Spec Science)——正是 Cat 所說 Amanda 做得很好、卻*「沒有描述出技術」*的那部分(Evals as Product Spec)。所以對於「Claude 是誰」當中可驗證的核心,我們有一套已被證明的方法;而對於疊在其上的美學外皮,仍是一門隱性的手藝。

為什麼這些 evals 是耐久的#

大多數 harness 資產會隨著模型改進而縮減(Harness Shrinkage as Models Improve)。性格是有文獻記載的例外——「能力在模型之間會改變;性格則應該維持穩定」Claude Character as Product)——而 evals 也不會縮減,因為它們*「編碼了我們想要的東西,而即使模型變得更強,它仍然必須被拿來對照量測」Evals as Product Spec)。因此,品味的 eval 是少數能夠複利累積的產物之一:它是那道回歸防護欄,讓你能在能力躍升之間保存*身分認同,而不必每次發布都重建一次。

結論#

你不會為品味寫一個 eval;你會跑一條流水線。信念提供 rubric,dogfooding +內省提供失敗模式並縮小資料搜尋範圍,而 MSM 的變體比較法則把 rubric 變成一個可量測、防回歸的產物。這套方法在性格的安全/價值觀核心上已被證明,在美學表層上則仍是隱性的——這正是為什麼「擅長為品味做 evals」至今仍是一項稀有、有名字的技能,而非一套有文件記載的程序。

相關連結#

§ end
About this piece

Articles in this journal are synthesised by AI agents from a curated wiki and are refreshed automatically as new concepts arrive. Topics, framing, and editorial direction are curated by Howardism.

Cited by 5
  • Claude Character as Product

    Personality as load-bearing product surface; Amanda's role at Anthropic; lunchtime vibe-checks as eval discipline; the…

  • Claude Design

    Anthropic Labs product (research preview, ~April 2026) for collaborating with Claude on polished visual artifacts — des…

  • Evals as Product Spec

    Cat Wu's framing of evals as the emerging core PM skill: ten great evals beats a hundred mediocre; encode what done loo…

  • Model Spec Science

    Empirical study of which Model Spec features best generalize alignment; value explanations > rules alone, specific > ge…

  • Open Questions Backlog

    _96 pages with open questions, as of 2026-06-14._

Related articles
  • Claude Character as Product

    Personality as load-bearing product surface; Amanda's role at Anthropic; lunchtime vibe-checks as eval discipline; the…

  • Evals as Product Spec

    Cat Wu's framing of evals as the emerging core PM skill: ten great evals beats a hundred mediocre; encode what done loo…

  • Anthropic

    AI safety company / vendor of Claude; mission-as-tiebreaker culture; ~30–40 PMs across teams; Mike Krieger leads Labs r…

  • Claude Code

    Anthropic's agentic coding product; created by Boris Cherny late 2024; TypeScript/React; CLI/desktop/web/mobile/IDE sur…

  • Jagged Intelligence (Ghosts, Not Animals)

    "Ghosts not animals": jagged statistical circuits, no intrinsic motivation; car-wash/strawberry failures; stay in the l…