大型語言模型訓練方法「預訓練–對齊」的強大與極限
訓練模型三階段與對齊的定義
- 第一階段:Pre-train(預訓練):透過大量網路爬蟲資料,讓機器具備基本的文字接龍能力。
- 第二階段:Supervised Fine-tuning (SFT):又稱 Instruction Fine-tuning,由人類提供正確問題與答案的對答範例。
- 第三階段:RLHF(來自人類回饋的強化學習):人類對模型的不同回答提供好壞回饋。
- Alignment(對齊):指第二與第三階段的總稱,目標是讓模型的輸出符合人類價值觀與需求。
!three-stage-training-and-alignment](00:01:51)
Alignment 的「畫龍點睛」作用
- 資料量小、品質極大化:Alignment 階段使用的資料量遠少於 Pre-train。例如 LLaMA-2 僅用約 2.7 萬筆資料微調。LIMA 甚至證明僅用 1,000 筆精選資料就能達到極佳效果。
- 弱智吧 (Ruozhiba) 的奇效:實驗發現來自「弱智吧」的 240 筆資料比 8,000 筆知乎資料更有助於模型進步。原因可能是題目豐富且答案是由 GPT-4 生成的,等同於對模型進行了知識蒸餾 (Knowledge Distillation)。
- Knowledge Distillation(知識蒸餾):將 GPT-4 等強大模型當作老師,讓自己的模型學習老師的回答,能以極低成本(如 100~500 美金)瞬間暴增模型能力。
![]() | ![]() | ![]() |
|---|---|---|
| 資料量小、品質極大化 | 弱智吧 (Ruozhiba) 的奇效 | Knowledge Distillation(知識蒸餾) |
Alignment 前後的真實差異與機制
- 行為差異不大:研究顯示,對齊前後模型輸出字詞機率的排序(Shifted Token)變化比例極小。
- 調整核心在於「結束」與「連接」:對齊主要改變的是模型開頭的客套話、連接詞,以及學會何時輸出結束符號以停止暴走反覆。

Response Tuning
不給問題,只讓模型學習產生高品質答案,也能達到不錯的效果。

Rule-based Adapter
甚至不微調參數,僅透過手動調整結束符號與重複字詞的機率,就能讓 Base 模型提升至與微調模型一戰的能力。

Self-alignment
讓模型針對同問題產出多個答案並自我評分,再進行強化學習,讓模型自動對齊。



