跳至主要内容

生成式 AI 的技術突破與未來發展

AI 的最新行為:從「一問一答」到「腦內小劇場」

  • 思考能力 (Reasoning):現在的模型(如 DeepSeek、o1)在回答前會進行「腦內小劇場」,展示內心的糾結與驗證過程,這被稱為 Testing Time Scaling(深度不夠,長度來湊)。
  • AI Agent (人工智慧代理):不再只是單次對話,而能執行多步驟任務,具備從經驗中學習、使用工具、主動規劃與自我修正的能力。
  • Deep Research:模型能根據搜尋結果不斷產生新問題並深入研究,最後產出長篇報告。
reasoningai-agent
ReasoningAI Agent

核心運作機制:萬物皆 Token

  • 基本單位 (Token):生成式 AI 將文字、圖片、聲音等複雜物件拆解成有限的基本單位。
  • 自迴歸生成 (Autoregressive Generation):根據固定的次序,每次只產生一個 Token,本質上是一連串的文字接龍(選擇題)。
  • 深度學習 (Deep Learning):將複雜問題拆解成多個簡單的步驟(Layer),每一層 Layer 都是一個思考步驟,透過串聯多層函式來提升效率。
tokenautoregressive-generation
基本單位 (Token)自迴歸生成 (Autoregressive Generation)

深度不夠,長度來湊

  • 深度學習 (Deep Learning):將一個複雜的函式拆解成許多小函式(Layer)的串聯,每一層 Layer 都代表一個思考步驟。深度學習的本質並非把問題變複雜,而是將本來複雜的問題拆解成多個簡單的步驟,讓處理過程更有效率。
  • 層數的物理限制:模型在運作時,從問題到答案之間需要經過許多思考步驟,但類神經網路的 Layer 數目(即深度)在訓練完成後是固定且有限的。當面對極其困難、需要更多思考步驟的問題時,有限的深度往往不足以直接產生正確答案。
  • Testing Time Scaling (測試時間縮放):當模型先天深度不足時,可以透過讓機器進行「腦內小劇場(Reasoning)」來擴展網路的深度。這種機制讓模型不再侷限於硬體的 Layer 數目,而是與「思考過程的長度」有關,讓思考過程可以要多長有多長。研究證實,當機器想得越長(使用的 Token 越多),在不同任務上的正確率就越高。
why-depthtesting-time-scaling
深度的意義Testing Time Scaling (測試時間縮放)

突破預訓練門檻:從特化模型到通用 LLaMA 時代

此段落整理了通用機器學習模型的三個形態演進,以及 LLaMA 所在的定位:

  • 第一型態 (2018-2019):如 BERT 等編碼器模型。它們無法直接輸出文字,必須外掛特化模型(專才)才能處理摘要或翻譯任務。
  • 第二型態 (2020-2022):如 GPT-3。雖然具備文字生成能力,但難以用指令操控,必須針對不同任務微調出不同的參數(架構相同,參數不同)。
  • 第三型態 (2023 至今):以 LLaMA、ChatGPT 為代表。這些模型是真正的 「通才」 ,在不同任務間切換時,架構與參數完全相同,只需透過 Prompt (指令) 即可運作。
  • 天資與後天努力:架構(如 Transformer)是模型的天資,而參數(Parameter)則是透過訓練資料學習後的後天成果。現在的模型參數已達 7B(70億)甚至 70B 以上規模。
type-1type-2type-3
第一型態 (2018-2019)第二型態 (2020-2022)第三型態 (2023 至今)

模型架構的演進與競爭

  • Transformer:目前主流架構,核心在於 Self-attention Layer,能同時考慮全局資訊,優點是訓練時可以平行化,適合 GPU 運算。
  • Mamba:針對 Transformer 在長輸入時運算量過大的限制,Mamba 透過類似 RNN 的架構,在推論時能提供更好的加速與較小的記憶體負擔。

limitations-of-transformers


微調的局限與賦予能力的其他手段

  • 微調是最後手段與能力破壞:微調 (Fine-tune) 應作為賦予新能力的「最後手段」。其挑戰在於常導致模型原有能力錯亂,使行為變得奇奇怪怪,對原本能正常回答的問題產出荒謬、不可理喻的答案。
  • 專業技能喪失與邏輯崩壞:微調後模型可能無法符合特定格律(如寫詩),甚至產生邏輯混淆,將教導的特定答案套用到所有類似結構的問題中,導致邏輯完全崩壞。
  • 模型編輯 (Model Editing):若只想修改特定小知識,可直接手動修改類神經網路中的對應參數,如同植入「思想鋼印」,不需耗費資源微調整體模型。
  • 模型合體 (Model Merging):在缺乏訓練資料的情況下,可直接將兩個專長不同的模型參數合體(如寫程式與講中文),打造出兼具兩者能力的新模型。
fine-tunemodel-editing
微調 (Fine-tune) 會造成模型能力的破壞模型編輯 (Model Editing)