AI Agent 的定義與運作機制

核心定義

人類不提供明確的步驟指示，僅給予 目標 (Goal)，由 AI 自己想辦法達成。AI 必須具備在複雜、不可預測的環境中靈活調整計畫的能力。

core-definition

運作流程 (循環機制)

目標 (Goal)：由人類給定的輸入。
觀察 (Observation)：AI 觀察並分析目前的狀況。
行動 (Action)：AI 採取行動影響環境，進而產生新的觀察，循環直到達成目標。

技術演進

過去 (RL 打造)：透過強化學習 (Reinforcement Learning) 訓練模型以最大化獎勵 (Reward)，但侷限在特定任務且不同任務無法通用。
現在 (LLM 驅動)：直接將大型語言模型 (LLM) 當作 Agent，利用其文字接龍的能力處理目標與環境敘述。

文字接龍的應用延伸

從 LLM 角度看，Agent 並非新技術，而是依靠模型現有的通用能力進行「文字接龍」，將環境觀察轉為文字輸入，並將文字輸出轉譯為可執行動作。

llm-view-of-agent-problems

LLM Agent 的優勢

無限的行動可能：輸出不再侷限於預設的選擇題，具備近乎無窮的行動方式。
豐富的回饋資訊：不需要「通靈」設定數值獎勵，可直接讀取如編譯錯誤 (Compile log) 等文字訊息來修正行為。

關鍵能力：根據經驗調整行為 (記憶模組)

AI Agent 需具備不更新參數也能根據回饋改變行為的能力，主要是透過對長期記憶的管理：

超憶症 (Hyperthymesia) 的風險

若將所有經歷一股腦丟給模型，會因記憶過長、瑣碎資訊太多而耗盡算力或無法進行抽象思考。

hyperthymesia

Read (讀取/檢索)

如同 RAG 技術，從長期記憶庫中篩選出與目前情境相關的經驗，作為決策參考。

read

StreamBench

這是由 API 研究人員打造的評估基準，專門研究 AI Agent 能否根據經驗修改行為。模型需依序解決一系列問題（如 1750 個問題），並在每次回答後接收「對」或「錯」的二元回饋作為經驗。

實測發現：對現階段模型而言，提供「正面成功的經驗」比「負面失敗的例子」更能有效引導模型得到正確答案。

Reflection (反思)

對記憶進行抽象化的重新整理，產生新想法 (New Thought) 或建立 知識圖譜 (Knowledge Graph)，協助做出更好的決策。

reflection

關鍵能力：使用工具 (Function Call)

工具的定義

Agent 只需要知道如何使用，而不需要知道內部運作原理的函式 (Function)，如搜尋引擎、程式執行器或其他 AI。

function

通用運作方式 (System Prompt)

在 System Prompt（開發者設定、優先級較高）中定義工具的使用方式與格式。
開發者需搭建「橋樑」，將模型產出的特定格式文字轉為實際的函式調用，並將結果回傳給模型。
在 System Prompt 中定義工具 自己搭建使用 Tool 的橋樑


在 System Prompt 中定義工具	自己搭建使用 Tool 的橋樑

自我進化

模型甚至可以自己編寫程式碼 (Function) 來打造新工具，並將其放入工具包中供未來使用。

make-tool

判斷力與信任問題

知識拉扯：模型在內部知識與工具提供的外部知識間會有角力。當兩者差距過大時，模型較不容易相信外部知識。
偏好特徵：模型傾向相信 AI 同類寫的內容、發布日期較新 的文章，以及 排版精美 的呈現方式。

關鍵能力：執行與修正計畫 (Planning)

計畫的必要性

先產生一系列行動步驟 (Plan) 再執行通常效果較好。但因環境具隨機性，Agent 必須能在看到新觀察 (Observation) 時隨時修改計畫。

planning

路徑搜尋與優化

Tree Search：嘗試多種可能路徑，並自問「路徑是否有希望」來剔除低分選項，減少搜尋成本。
世界模型 (World Model)：為了解決某些動作「覆水難收」的問題（如訂了 Pizza 無法退），一切嘗試應發生在 腦內小劇場（夢境） 中，利用 World Model 模擬環境變化，確認成功後再於現實執行。
Tree Search 世界模型 (World Model)


Tree Search	世界模型 (World Model)

思考與推理 (Reasoning)

如 o1 或 DeepSeek 等具備推理能力的模型，透過長達千字的內心戲找出最佳解決方案。

reasoning

潛在風險 (Over-thinking)

模型可能成為「思考的巨人，行動的矮子」，因過度思考而不敢行動或在不需要思考時糾結過久。

over-thinking

核心定義​

運作流程 (循環機制)​

技術演進​

文字接龍的應用延伸​

LLM Agent 的優勢​

關鍵能力：根據經驗調整行為 (記憶模組)​

超憶症 (Hyperthymesia) 的風險​

Read (讀取/檢索)​

StreamBench​

Reflection (反思)​

關鍵能力：使用工具 (Function Call)​

工具的定義​

通用運作方式 (System Prompt)​

自我進化​

判斷力與信任問題​

關鍵能力：執行與修正計畫 (Planning)​

計畫的必要性​

路徑搜尋與優化​

思考與推理 (Reasoning)​

潛在風險 (Over-thinking)​