自注意力機制 (Self-attention)
設計動機:處理長度不一的向量序列
傳統的網路架構(如全連接網路或 CNN)通常假設輸入是固定長度的向量,但在現實中,許多問題的輸入是一 排長度會改變的向量序列 (Sequence of Vectors)。
- 文字處理:一個句子由多個詞彙組成,每個詞彙可表示為一個向量(如 One-hot Encoding 或具備語義資訊的 Word Embedding),而句子的長度各不相同。
- 語音處理:一段聲音訊號可切分為多個 Window(稱為 Frame),一秒鐘的聲音通常包含約 100 個向量。
- 圖形結構 (Graph):社交網絡中的節點(人)或分子結構中的原子,都可以看作是一堆向量組成的圖形。
![]() | ![]() |
|---|---|
| 文字處理 | 語音處理 |
![]() | ![]() |
|---|---|
| 社交網絡 | 分子結構 |



