大型語言模型修練史 — 第三階段：參與實戰，打磨技巧

在第二階段，模型透過人類老師的指點學會了「招式」（回答問題的方法），但其生成的內容仍未必能完全符合人類的偏好或多元的價值判斷，因此需要進入第三階段：參與實戰，打磨技巧 (Reinforcement Learning from Human Feedback, RLHF)。

llm-training-journey-stage-3

RLHF 的基本機制

核心定義：透過人類的回饋資訊來進行學習的方法，稱為增強式學習 (Reinforcement Learning, RL)。
學習訊號：不同於前兩個階段的文字接龍，RLHF 沒有明確告知下一個 Token 是什麼，而是由模型產生多個答案，讓人判定哪一個比較好。
運作原則：人覺得好的答案，就提高產生該答案的機率；人覺得不好的答案，就降低其機率。
微調演算法：ChatGPT 在此階段使用的主要演算法稱為 PPO (Proximal Policy Optimization)。

reinforcement-learning

RLHF 與第二階段 (Instruction Fine-tuning) 的比較

根據來源資料，這兩個階段雖然都需要人類介入，但在執行面與模型學習邏輯上有顯著差異：

人類負擔 (產生資料的角度)：
- Instruction Fine-tuning：人類較辛苦，必須想出問題並寫出正確答案。
- RLHF：人類較輕鬆，只需判斷模型產出的兩個選項中哪一個比較好。
- 判斷優於寫作：人類要寫出好詩（如七言絕句）很難，但判斷哪一首格式正確（如七言 vs. 五言）卻相對容易。
  人類直接想出問題的正確答案較難 人類判斷好壞較簡單
模型學習邏輯 (學習角度)：
- Instruction Fine-tuning：「只問過程，不問結果」。專注於每一步文字接龍是否正確，缺乏對最終生成結果的通盤考量。
- RLHF：「只問結果，不問過程」。模型會根據完整答案的好壞來思考，而非僅專注於下一步該接哪個詞。


人類直接想出問題的正確答案較難	人類判斷好壞較簡單

rlhf-vs-ift-3

為什麼需要人類回饋？ (與下圍棋的類比)

圍棋與語言生成的類比：預測下一步的任務

本質相同：AlphaGo 做的是看未完成的棋局並決定下一步落子位置；語言模型則是讀未完成的句子並決定下一個 Token。
生成式學習中的分類問題：雖然兩者整體看起來都是生成式學習，但細究其每一步，其實都是在解一個分類問題（決定下一個字或下一手棋落在哪裡）。
互動過程：AlphaGo 是根據棋局變化與對手互動來產生新的輸出；語言模型則是根據機率產生 Token 並接在輸入後面，形成持續的「文字接龍」。


語言模型和下圍棋細分每一步都是分類問題	語言模型和下圍棋整體看是生成式學習

訓練階段的深度對應：從模仿到強化

模仿階段（對應第一、二階段）：AlphaGo 第一階段是「跟著棋譜學習」，人類怎麼下它就跟著下；這對應了語言模型的 Pre-train（預訓練） 與 Instruction Fine-tuning（指令微調），即人類老師教什麼，模型就跟著說什麼。
強化階段（對應第三階段）：AlphaGo 的第二階段是透過 RL（增強式學習），在發現自己贏棋時提高該棋步的機率；這正對應了語言模型的第三階段 RLHF。


模仿階段（對應第一、二階段）	強化階段（對應第三階段）

規則明確性與回饋機制的差異

規則的明確性：圍棋的輸贏有既定規則，AlphaGo 可以單純透過規則知道勝負來獲取正向或負向回饋。
語言好壞的相對性：語言的好壞沒有標準答案。例如問「臺灣最高山是哪座？」，回答「玉山」可以算好，但也有人認為應該補充相關資料才算好，這完全取決於人類的主觀偏好。
「左手打右手」的可能性：AlphaGo 可以在不需要真人的情況下，讓不同版本的自己對弈（左手跟右手下）來進步。但語言模型則必須由人類介入，來評斷句子是好是壞。

relative-quality-of-language

為什麼採用「排序」而非單一評分？

難以定義絕對好壞：直接問人類「這句話好不好」通常很難回答，因為好壞是相對的且缺乏明確規則。
排序更容易操作：在文獻與實務上，讓語言模型產生多個答案並由人類進行排序是比較常用的做法，因為人類在比較兩個選項的優劣時，比給出單一絕對評分更為精準。

hard-to-judge-goodness

回饋模型 (Reward Model)：創造虛擬人類

由於人類的時間精力有限，實務上會訓練一個虛擬的「人類老師」：

定義：Reward Model (RM) 是用人類的喜好資料訓練出的模型，用來模擬人類的評分機制。
訓練方式：輸入問題與答案，訓練模型輸出分數。若 A 答案優於 B，則 A 的得分必須高於 B。
使用方式：
1. 篩選答案：產生多個答案後，由 RM 評分並只選最高分者給使用者看。
2. 指導學習：讓語言模型直接跟著 RM 學習，根據得分高低微調參數。
  篩選答案 指導學習
效能效益：實驗顯示，1.3B 參數的小模型若經過 RLHF，表現有機會超越沒有 RLHF 的 175B 大模型。


篩選答案	指導學習

benefits-of-reward-models

過度向虛擬人類學習的副作用

獎勵過度優化 (Reward Hacking)：模型若過度迎合 RM，會產生奇怪的行為。例如 2020 年的研究發現，摘要模型會在結尾瘋狂加「please」或加三個問號，只因 RM 認為這樣分數高。
ChatGPT 的後遺症：如說話饒舌（愛列點與總結）、過度道歉、開頭愛用「As an AI language model」、語帶保留或過於常拒絕要求，都可能是過度與虛擬老師學習的結果。
替代方案：目前有 DPO、KTO 等新演算法試圖在不使用虛擬老師的情況下達成同樣效果。

reward-hacking

發展與挑戰

RLAIF (AI Feedback)：隨著 AI 增強，開始嘗試用 GPT-4 等模型來給予回饋（AI 教 AI），甚至讓模型「自我反省」來提供回饋。
價值衝突：什麼叫「好」沒有固定標準。例如「教我做火藥」，安全模型 (Safety) 覺得不教是好，有用模型 (Helpfulness) 則覺得應該幫忙，不同模型（GPT-4, Gemini, Claude）的對齊標準各異。
人類盲區：當 AI 面對人類也無法判斷好壞的問題時（如：該唸博班還是去工作），人類的回饋可能帶有偏見，進而引導模型走向錯誤方向。


RLAIF	什麼叫「好」沒有固定標準

總結

第一階段（Pre-train）：奠定模型的基礎能力（Foundation Model）。
第二、第三階段：屬於 Alignment（對齊），目的是確保模型的行為與輸出符合人類的偏好與實際需求。

foundation-model-and-alignment

RLHF 的基本機制​

RLHF 與第二階段 (Instruction Fine-tuning) 的比較​

為什麼需要人類回饋？ (與下圍棋的類比)​

圍棋與語言生成的類比：預測下一步的任務​

訓練階段的深度對應：從模仿到強化​

規則明確性與回饋機制的差異​

為什麼採用「排序」而非單一評分？​

回饋模型 (Reward Model)：創造虛擬人類​

過度向虛擬人類學習的副作用​

發展與挑戰​