懶人包

AI 時代的
6 個關鍵技術名詞

API、GUI、Browser Use、CLI、MCP、Skills
—— 它們是什麼、怎麼比較、你的 AI 該用哪個?

原文 by yuanlin · 寫於去成田機場的 Skyliner 上

這篇文章怎麼來的?

yuanlin 和漸強實驗室的 Jin Hsueh 以及黑嘉嘉圍棋的彧熏葉,在 Appier 東京辦公室樓下的燒肉店聊到這些技術名詞——發現即使是創業者前輩,如果不是天天在用,其實都需要花時間理解。於是他在去成田機場的 Skyliner 上,把腦中的想法 dump 出來寫成了這篇筆記。

這篇文章適合誰?

開始接觸 AI 工具,常看到「支援 API / CLI / MCP / Skills」卻不知道差別的人;有軟體產品想讓 n8n、Claude Code、OpenClaw 等工具高效使用的人;正在做自動化、Agent、內部工具,想搞懂不同整合方式各自適合什麼場景的人。

API

Application Programming Interface
讓程式直接呼叫另一個程式的接口。最快的方式,但需要有人寫程式碼來呼叫。
Uber 舉例:寫一行 Python 就能叫車,不用打開 App。搶票系統不開放 API,就是故意不讓你用程式化方式搶票。
極快 ~3s 給程式用
🖥️

GUI

Graphical User Interface
包在 API 外面的好看畫面。人類點點按按就能用,但程式不好操控。
本質:GUI 背後其實也是呼叫 API。所謂「不提供 API」其實是用手段讓你不容易用,且不公開文件。
慢 ~3min 給人用
🤖

Browser Use

AI 自己操作瀏覽器
沒有 API?讓 AI 直接操作 GUI。萬能但很慢很貴。十年前叫「爬蟲」,現在是 Agent 的基本能力。
真實成本:打開網站 5s → 驗證 10s → 登入 30s → 切換頁面 5s → 輸入 15s → 按下按鈕 3s = 共 ~75s,與 API 的毫秒級差了一個數量級。
很慢 ~75s 給 AI 用
⌨️

CLI

Command Line Interface
用指令操作,是 GUI 和 API 的中間值。比 GUI 快、比寫程式簡單,指令都是國小英文。
AI 時代三大優勢:比 GUI 穩定(指令不會因改版壞掉)、比 Browser Use 快、比 API 更適合 LLM 使用且省 token。
快 ~5s 給人用 AI 也行
🔌

MCP

Model Context Protocol
統一的工具接口標準,讓 AI 從工具清單選一個就能用。但三大問題制約了它的發展。
三大問題:要等官方或社群開發 Server、很多 AI 工具沒完全支援協議(如 OAuth)、所有工具 schema 載入 system prompt 吃光 context window。
快 ~5s 給 AI 用 要等生態
🧠

Skills

AI 學會的技能
教 AI 一次,它自己記住怎麼做。不用等官方、不吃 context、完全客製化。
運作方式:讓 AI 花 20 分鐘研究某個 API/CLI,成功後記錄成 Skill(markdown 檔),下次直接用,只把名字放進 context,用到才展開細節。
快 ~5s 給 AI 用 自給自足

同一件事 —— 用 Uber 叫車

6 種方式,速度差距一目瞭然

API一行程式碼
~3s
CLI一行指令
~5s
MCPAI 選工具
~5s
Skills學過一次
~5s
Browser UseAI 模擬人類
~75s
GUI人類點按
~3 min+
同樣是叫車,API 只要 3 秒,人類手動操作要 3 分鐘以上
速度差距 60 倍

MCP 的現實挑戰

生態取決於多少開發者願意投入;許多平台沒完全支援協議(如 OAuth 授權流程);所有工具的 schema 必須載入 system prompt,嚴重佔用 context window,裝太多 MCP 工具反而讓 AI 只剩使用工具的能力,而且每次對話成本更高。

Skills 的巧妙設計

任何人都能自己客製化,不用等官方。用對話方式「教」AI 學會新技能,研究成功後記錄成 markdown 檔。只把 Skill 的名字和描述放入 context,需要時才展開細節,大幅節省 token。未來甚至可以用向量搜尋等方式進一步優化。