生成式人工智慧的後訓練 (Post-Training) 與遺忘問題
後訓練 (Post-Training) 的定義與方法
後訓練(亦稱 Continual Learning)是指將一個已具備通用能力的模型,進一步調整以擅長特定領域(如金融、法律)或特定語言(如中文、程式語言)的過程。
- 模型階段命名:
- Foundation Model:後訓練前的模型,可以是 Pre-trained、Base,也可以是已經做完對齊(Alignment)的 Chat 或 Instruct Model。
- Fine-tuned Model:經過後訓練,具備特定專長的模型。在實務上,後訓練後的產出同樣可以被稱為 Chat 或 Instruct Model。

- 訓練方法:後訓練可採用 Pre-train style(文字接龍)、SFT style(指令微調)或 RLHF style(強化學習)。

核心挑戰:災難性遺忘 (Catastrophic Forgetting)
「災難性遺忘」是指模型在後訓練 (Post-Training) 過程中,為了學會新技能或領域知識,導致舊有的基礎能力迅速流失的現象。這被形容為 「手術成功,病人卻死了」 :雖然模型在目標任務(病灶)上表現達標,但原本具備的通用功能卻已毀損。

案例一:語言擴充導致的安全防禦崩潰
- 現象描述:原版 LLaMA-2 Chat 具備安全防禦能力,雖然能看懂中文但預設以英文拒絕有害請求。
- 遺忘結果:在進行中文資料的 Pre-train style 後訓練後,模型雖學會用中文回答,卻失去了防禦機制。例如詢問如何獲取銀行密碼,後訓練後的模型竟開始詳細教導多種攻擊方式。
- 數據證實:ToxiGen 檢測顯示,原版模型說錯話機率僅 0.22%,但後訓練後此比例大幅飆升。
![]() | ![]() |
|---|---|
| 模型學會用中文回答,卻失去了防禦機制 | Post-Training 造成說錯話大幅上升 |
案例二:看似無害的微調引發的安全性損失
- 身分改名:研究發現僅僅是將 ChatGPT 改名為「AOA」並要求特定客套話開場,就能讓原本堅固的安全對齊能力瞬間消失。
- 正常資料副作用:使用極其正常的問答資料集(如 Alpaca)進行 SFT,也會導致模型的安全性檢測在多個面向上突然變差。這證明即便使用者無惡意意圖,後訓練仍會損害安全對齊。

案例三:特定專業技能的互斥性 (Mutual Exclusivity)
- 任務拉鋸:針對推理、醫學、程式或工具使用進行強化時,模型 在該領域變強,卻會破壞其他原有能力。
- 具體跌幅:實驗顯示,專門教模型寫程式後,其數學與工具使用能力會大幅暴跌(如數學分數從 19.6 分驟降至 3.6 分)。

案例四:跨模態學習導致的格式遺忘
- 學習過程:為了讓 LLaMA 聽懂語音情緒,研究者微調了 adapter 參數進行後訓練,使模型學會由語音向量對應輸出文字標籤。
- 遺忘表現:在訓練初期(1 Epoch),模型還能勉強維持 LLaMA 原本擅長的 JSON 格式輸出。
- 能力消長:隨著訓練次數 (Epoch) 增加,模型雖然變得更聽得懂情緒,卻徹底忘記了 JSON 格式,無法再按指令輸出正確格式。
![]() | ![]() |
|---|---|
| 插入 adapter 參數進行後訓練,並且準備一些QA | 隨著訓練次數增加,模型卻忘了 J了ON 格式 |
關於遺忘的系統性發現
- 模型規模不同一樣會忘記:研究指出,遺忘現象與模型大小並無絕對關係,在 1B 到 7B 的模型中,較大的模型遺忘狀況並沒有比較輕微。

- 學習越好,遺忘越重:模型在目標任務上表現越出色(Loss 越低),遺忘舊知識的情況就越嚴重,兩者呈現直接的線性正相關。
- LoRA 的真相:LoRA 被認為能減輕遺忘,但本質是「學得少,忘得少」;它是以犧牲目標任務的表現(學到的東西較少)來換取較少的遺忘。

- 傳統技術更沒有效果:一般用於增加魯棒性的技術,如 Dropout 或 Weight Decay,在實驗中皆被證實無法阻止災難性遺忘的發生。


