跳至主要内容

大型語言模型評估 (Evaluation) 的挑戰與迷思

如何評量模型的「推理」能力?(Reasoning Evaluation)

現狀:簡單粗暴的數學題

  • 目前評量模型推理能力最常用的方式,就是直接考它數學問題(如 AIME、GSM8K)。答對了就當作有推理能力,答錯了就當作沒有。
  • DeepSeek 與 o1 的例子:DeepSeek 技術報告與 OpenAI o1 發布時,都大量使用數學競賽題(如 AIME)的正確率來展示其優越的推論能力。

reasoning-evaluation

核心質疑:是推理 (Reasoning) 還是記憶 (Memorization)?

  • 模型可能只是剛好在訓練資料中看過這題數學題,憑藉記憶輸出答案,而非真的進行了推理。

reasoning-vs-memorization

驗證實驗:GSM8K 變體測試

  • 替換無關變量:研究者將 GSM8K 中的人名(如 Sophia 改掉)、數字或親戚關係替換掉,照理說題目難度不變。
    • 結果:多數模型(如 Mistral, Gemma)正確率顯著下降,顯示它們可能只是「背」到了原題的答案。不過 o1-mini 受到的影響較小。
  • 語序對調:將題目中的句子順序對調,但不影響語意。
    • 結果:正確率依然下降,代表模型學到了順序等不該學的特徵。
  • 加入干擾句:在題目中加入完全不相干的句子(如「有幾顆蘋果爛掉了」)。模型往往會想太多而答錯(雖然人類也可能因此被混淆)。

gsm8k-variant

資料污染 (Data Contamination) 的難題

  • 很難完全確保模型沒看過考題。即便在訓練資料中過濾掉英文版 GSM8K,模型可能看過被翻譯成「蒙古文」的版本,憑藉跨語言能力依然能作弊。

data-contamination


智力測驗型的評估:ARC-AGI

什麼是 ARC-AGI?

  • 背景:由 Keras 作者(François Chollet)於 2019 年提出。
  • 形式:類似人類智力測驗的圖形推理題(輸入幾張圖的變換規則,預測下一張圖)。雖然是圖形題,但丟給 LLM 時會轉換成文字格式(用數字代表顏色,如 0=無色, 1-9=不同顏色)。
  • 目的:設計上希望模型無法靠「背誦」網路知識來回答,必須具備真正的推理能力(General Intelligence)。且擁有未公開的 Testing Set。
arc-agi-examplearc-agi-format
arc-agi 的題目類型圖型會被轉換成文字格式,讓 LLM 能處理

評測表現

  • 高難度:釋出五年來,多數模型都無法有效突破,不像其他 Benchmark 兩三年就被玩壞。
  • o3 的突破:o3 模型的表現介於一般人類與理工科畢業生之間,是目前的強者。
  • 代價:o3 在此任務上的推論成本極高,回答一個問題需耗費約 1,000 美金的算力。
arc-agi-hardo3-breakthroughs-and-costs
arc-agi 的高難度o3 的突破與代價

潛在弱點

  • 雖然題目不公開,但若根據公開的範例題自動生成數千萬題類似題目讓模型狂刷(Hack),模型可能還是能透過「背題型」來取得高分。

眾人盲測平台:Chatbot Arena

運作機制

  • 盲測 (Blind Test):系統隨機給出兩個匿名模型(Model A vs Model B),使用者問同一個問題,根據回答選出誰比較好。
  • 優勢:題目由全世界使用者即時輸入,模型無法針對特定題庫作弊。

chatbot-arena

人類評分的偏見 (Bias)

  • 風格大於實力:人類並非完美的裁判,往往更喜歡有 Emoji、有粗體條列 (Bullet points)、回答篇幅較長、語氣自信的模型,即便內容準確度差不多。
  • 難辨真假:當模型能力超越一般人時,人類其實看不出模型是否在「一本正經地胡說八道」,最後只能憑語氣或排版打分。

Elo Score 與戰力校正

  • 基礎算法:利用 Elo Rating System,根據勝率 (βiβj\beta_i - \beta_j) 反推模型戰力 (β\beta)。 elo-rating-system
  • 校正因子 (β0\beta_0):為了消除非實力因素的影響,官方嘗試在公式中加入 β0\beta_0 來扣除風格分數(如長度、Emoji 數量、格式等)。 elo-rating-with-bias-correction
  • Claude 的案例
    • 在未校正前,Claude 系列因為「憨慢講話」(不愛用 Emoji、風格嚴肅),排名常被低估。
    • 校正後:若去除非實力因素(風格),Claude 的排名會大幅上升,證明它其實很聰明,只是不討喜。 | claude-elo-corrected

古德哈特定律 (Goodhart's Law)

「一項指標一旦被當作目標,它就不再是一個好的指標。」 (When a measure becomes a target, it ceases to be a good measure)。

眼鏡蛇效應 (Cobra Effect)

  • 故事:英國殖民印度時期為了減少眼鏡蛇,祭出「抓蛇換賞金」政策。結果印度人開始在家裡養蛇來換錢,導致蛇反而變多了。
  • AI 界的啟示:如果過度追求某個評分指標(如 Math Accuracy 或 Arena Rank),開發者就會設法 Hack 那個指標(如刷題、優化 Emoji 輸出),反而偏離了原本希望模型變聰明的初衷。

goodhart-cobra-effect

提示

不要過度迷信單一評分系統,它最終都會把模型的努力給「異化」掉。