語言模型如何學會說話 — 概述語音語言模型發展歷程
語音 vs. 文字 (Speech vs. Text)
要理解語音語言模型,首先要明白語音與文字的本質差異:
- 文字是語音的壓縮版本:
- 人類歷史上是先有語言(聲音),為了保存才發明文字。文字的發明本質上就是為了壓縮語音資訊,以便紀錄與傳承。
- 資訊密度差異:100 萬小時的語音資料,轉換成文字後大約只有 60 億 (6B) 個 Token。這顯示語音包含的資訊量遠大於文字,但也意味著訓練語音模型需要處理更龐大、更複雜的數據。
- 資訊的不對稱:
- 文字:僅保留了語意內容 (Semantic)。
- 語音:除了內容,還包含了語者身分 (Speaker Identity)、情緒 (Emotion)、韻律 (Prosody)、環境音 (Environment) 等豐富資訊。訓練 Speech LLM 的難點在於,模型不僅要學會語意,還得學會上述所有額外的聲學特徵。

語音語言模型 (Speech LLM) 發展現況
- Moshi:最早真正釋出服務的語音語言模型(2024年10月)。
- GPT-4o Voice Mode:雖早期有 Demo,但真正上線晚於 Moshi。
- Sesame:目前互動最為流暢的模型之一。
- 其他模型:GLM-4-Voice, Step-Audio, Qwen2.5-Omni 等。

核心原理:語音生成的基本單位 (Speech Token)
語音模型的運作原理類似文字模型(接龍),關鍵在於如何將連續的聲音訊號轉換為離散的 Token。

方法 A:ASR + TTS (文字當 Token)
- 作法:語音辨識轉文字 LLM 處理 語音合成唸出來。
- 缺點:會丟失語氣與情緒資訊。例如:「你真的好棒喔」若是反諷語氣,轉成文字後模型會誤以為是讚美,無法正確回應。

方法 B:Sample Points (取樣點當 Token)
- 作法:直接將音訊的每個取樣點當作輸入。
- 缺點:序列過長。一秒鐘約 8000 個取樣點,講一分鐘需要產生 50 萬個 Token,現有模型難以負荷。
