如何為品味撰寫 evals？性格作為極限案例

待解的悖論#

Cat Wu 同時持有兩個看似矛盾的主張。第一，性格是最難評估的東西——「寫程式比較容易，因為你可以驗證是否成功，而塑造性格則需要對 Claude 應該是誰抱持非常強烈的信念」（Claude Character as Product）。第二，她點名 Amanda——塑造 Claude 性格的人——是真正擅長 evals 的人，「再加上團隊午餐時的 vibe-check」（Evals as Product Spec）。所以品味能抗拒 eval，卻又有人能把它 eval 得很好。化解之道在於：品味的 eval 並不是一個硬套在模糊目標上的單一評分函數；它是一條把信念轉化為可量測產物的流水線（pipeline），而這三個來源概念各自提供了其中一個階段。

這套技術的三個階段#

階段一——信念是前提，而非 eval 本身#

讓品味變得可 eval 的東西，位於任何資料集的上游：「對 Claude 應該是誰抱持非常強烈的信念」（Claude Character as Product）。Cat 把 Amanda 的角色拆解為兩項技能，正是此意——（1）有信念地闡述 Claude 應該是誰，以及（2）能夠說出為什麼某個回應符合或不符合性格（Claude Character as Product）。技能（2）就是 eval 技能：「對好的樣貌抱持強烈的意見＋能把那個意見轉譯成可量測的產物……品味被呈現為一次函數呼叫」（Evals as Product Spec）。少了信念，性格工作就會*「漂向平庸的平均值」*——任何建立在其上的 eval 也會如此，因為你沒有可供標註的真實基準（ground truth）。

這就是為什麼品味的 evals 無法外包給一份通用的評分準則（rubric）：那份準則本身就是意見。這項技能之所以稀有，正是因為困難的是闡述，而非量測。

階段二——dogfooding 蒐集失敗模式；內省縮小搜尋範圍#

在你知道「不符合性格」在真實情境中長什麼樣子之前，你無法寫出這個 eval。有兩項相輔的技術為 eval 提供養分：

質性優先的 vibe-checks（Dogfooding as Product Discipline）：團隊午餐的儀式會問*「你對這個模型的感覺如何？」，並浮現出具體的失敗訊號——「這個模型太唐突」、「很愛寫記憶，但品質不確定」、「對自己測試得不夠」*（Claude Character as Product）。這就是 dogfooding 紀律在沒有編譯器的情況下評斷一個輸出。
假設 → 資料探查（Model Introspection Feedback）：那股感覺訊號會指出該去看哪些記錄下來的資料，「而不是反過來。團隊的資料太多，無法盲目地挖掘；隱性的訊號縮小了該看哪裡的範圍」（Claude Character as Product）。內省給出假設；品味的創造者給出方向；eval 則給出證明＋回歸防護欄（Evals as Product Spec）。

eval 是這套堆疊中最後一項工具，是緩慢而耐久的那一個——它把一個由 vibe-checks 最先發現、由資料探查最先證實的判斷，編成法典般固定下來。

階段三——把判斷化為可執行的產物，並跨變體加以量測#

Model Spec Science 是一個存在性證明，說明模糊、由價值觀塑形的目標能夠被實證地呈現——而且它提供了量測方法：

把你想要的東西寫成 spec（Constitution 是性格的文本面；「性格是切身體驗的那一面，constitution 則是文本上的規格」——Claude Character as Product）。
產出兩個變體，並量測哪一個的泛化能力較好。MSM 論文做的正是這件事：Rules Spec、Value-Augmented 與 Rule-Augmented 的對比，在 Qwen 上訓練，並以 Agentic Misalignment (AM) 行為 eval 評分（Model Spec Science §5.1）。各份 spec 之間的差距達數十個百分點——例如價值觀說明在不同模型家族中把政策誤用分別從 20%→2% 與 6%→0% 地削減。
把結果回讀進撰寫決策：價值觀說明勝過光禿禿的規則；具體的指引勝過籠統的「要合乎倫理」式框架（Model Spec Science §5.2）。這就是被最佳化過的品味。

這與 Evals as Product Spec 所描述的是同一個原語（primitive）——「一個編碼了判斷取捨的可執行產物」——而這兩個概念明確地互為鏡像：model-spec-science 是那個*「產品面的鏡像……兩者都堅持，看似模糊的產物（specs、性格、品味）都能被呈現為可執行的驗證。」*

一份具體的配方（綜合而成）#

把這三者結合起來：

陳述信念，化為一份簡短、帶有立場的 rubric（「低自我、輕鬆但稱職、誠實而不諂媚」——Claude Character as Product）。這就是 spec。
挖掘 dogfooding 訊號，找出反覆出現、不符合性格的失敗模式；把每一個都轉化為標註好的「符合性格／不符合性格」範例配對。
把判斷編碼成一個評分函數——一個由 LLM 評審組成的評議會（The Verifiability Thesis），或一份由人工評分的 rubric——以重現 Amanda 那套「為什麼這不符合性格」的判斷。
跨變體做 A/B（模型版本、spec 版本）並量測漂移——把 MSM 的方法套用到你的功能上。
保留約 10 個，而非 100 個。 每一個都必須可詮釋（一次失敗會告訴你哪裡壞了）、捕捉一個你原本得在審查中爭論不休的判斷，並維持低維護成本（Evals as Product Spec）。品味的 evals 遵守與任何 eval 相同的 Goldilocks 法則。

為什麼這是極限案例，以及它在哪裡仍然失靈#

性格是這個光譜中最困難的一端，原因有兩個結構性的：

無法乾淨地做 A/B 隔離。 性格會與能力交互作用，因此*「很難說『Claude 很棒』有多少是來自性格、有多少是來自推理」*（Claude Character as Product）。eval 能量測「符合性格的程度」，卻難以把產品成果歸因於它。
驗證者自身的邊界。 The Verifiability Thesis 的未解問題是：由 LLM 評審組成的評議會究竟適不適用於*「真正具有爭議的價值判斷，還是只適用於品質／一致性」*。性格（溫暖、機智）落在有爭議的區域，而非一致性的區域——所以評審本身就是在做品味，而且是遞迴地在做。

而證據上誠實的缺口在於：MSM 是在安全／價值觀子集上示範這套方法（監督、誠實、不以結果合理化手段——透過 agentic-misalignment 量測），而非在溫暖／輕鬆／機智的人格子集上。那個仍然活著的未解問題——「溫暖／好奇的人格是否同樣適用於 spec-science 式的最佳化？」（Model Spec Science）——正是 Cat 所說 Amanda 做得很好、卻*「沒有描述出技術」*的那部分（Evals as Product Spec）。所以對於「Claude 是誰」當中可驗證的核心，我們有一套已被證明的方法；而對於疊在其上的美學外皮，仍是一門隱性的手藝。

為什麼這些 evals 是耐久的#

大多數 harness 資產會隨著模型改進而縮減（Harness Shrinkage as Models Improve）。性格是有文獻記載的例外——「能力在模型之間會改變；性格則應該維持穩定」（Claude Character as Product）——而 evals 也不會縮減，因為它們*「編碼了我們想要的東西，而即使模型變得更強，它仍然必須被拿來對照量測」（Evals as Product Spec）。因此，品味的 eval 是少數能夠複利累積的產物之一：它是那道回歸防護欄，讓你能在能力躍升之間保存*身分認同，而不必每次發布都重建一次。

結論#

你不會為品味寫一個 eval；你會跑一條流水線。信念提供 rubric，dogfooding ＋內省提供失敗模式並縮小資料搜尋範圍，而 MSM 的變體比較法則把 rubric 變成一個可量測、防回歸的產物。這套方法在性格的安全／價值觀核心上已被證明，在美學表層上則仍是隱性的——這正是為什麼「擅長為品味做 evals」至今仍是一項稀有、有名字的技能，而非一套有文件記載的程序。