使用 AI 建構應用程式前,請先選擇應用程式的代管平台。您的選擇會影響 AI 系統的速度、成本、擴充性和可信度。你可以選擇:
- 用戶端 AI:直接在瀏覽器中執行。這表示資料可以保留在使用者裝置上,維持私密性,且不會有網路延遲問題。不過,如要發揮良好效用,用戶端 AI 需要非常明確的用途。
- 伺服器端 AI:在雲端執行。功能強大且可擴充,但延遲時間和費用較高。
每個選項各有利弊,適合的設定取決於您的用途、團隊技能和資源。舉例來說,您可以提供在本機執行的摘要工具,讓使用者提出個人問題,不必管理個人識別資訊 (PII)。不過,如果客服人員使用可存取大型資源資料庫的雲端模型,就能提供更實用的答案。
本單元將說明如何:
- 比較用戶端和伺服器端 AI 的取捨。
- 根據用途和團隊能力選擇合適的平台。
- 設計混合式系統,在用戶端和伺服器上提供 AI,隨著產品成長。
查看選項
就部署而言,請從兩個主要軸向思考 AI 平台。您可以選擇:
- 模型執行位置:模型是在用戶端還是伺服器端執行?
- 可自訂程度:您對模型的知識和功能有多大的掌控權?如果您可以控制模型 (也就是可以修改模型權重),就能自訂模型行為,以符合特定需求。
用戶端 AI
用戶端 AI 會在瀏覽器中執行,並在使用者裝置上進行本機運算。您不需要提供推論時間的運算資源,資料會保留在使用者裝置上。因此速度快、隱私權有保障,適合輕量級的互動式體驗。
不過,用戶端模型通常相當小,這可能會限制模型的功能和效能。最適合用於高度專業化的工作,例如偵測惡意內容或情緒分析。通常是預測型 AI 工作,輸出空間有限。
主要有兩種做法:
- 內建 AI:瀏覽器 (例如 Google Chrome 和 Microsoft Edge) 正在整合 AI 模型。這些 API 可透過 JavaScript 呼叫存取,不需設定或代管。模型下載完成後,所有使用該模型的網站都能呼叫模型。
- 自訂模型:您可以使用 Transformers.js 和 MediaPipe 等用戶端程式庫,將模型整合至應用程式。也就是說,您可以控制模型權重。但這也表示網站的每位使用者都必須下載自訂模型。即使是最小的 AI 模型,對網站來說也很大。
伺服器端 AI
使用伺服器端 AI 時,網路應用程式會呼叫 API,將輸入內容傳送至 AI 模型並接收輸出內容。這項設定支援較大型且複雜的模型,且不受使用者硬體影響。
伺服器端 AI 分為兩類:
- 代管服務:這類模型由第三方 (例如 Gemini 3 和 GPT-5) 託管在資料中心。模型擁有者會提供 API 來存取模型。也就是說,您只需進行最少的設定,就能使用最先進的模型。非常適合快速製作原型、開放式對話和一般用途的推理。 不過,代管服務的擴充作業可能很昂貴。
- 自行代管模型:您可以在自己的基礎架構或代管容器 (例如 Vertex AI 或 Hugging Face Inference) 中,部署開放權重模型,例如 Gemma 或 Llama。也就是說,您能運用模型建立者完成的預先訓練,同時保有模型、微調資料和效能的控制權。
選擇初始平台
請先查看 AI 平台的架構特性,並分析取捨因素,再決定初始設定。
定義架構需求
每個決定都必須有所取捨。請參考以下主要特徵,瞭解如何定義 AI 平台的成本和價值:
- 模型效能:模型在各種使用者和工作中的表現,無須調整。這通常與模型大小有關。
- 自訂程度:您能微調、修改或控制模型行為和架構的程度。
- 準確率:模型預測或生成結果的整體品質和可靠性。
- 隱私權:使用者資料保留在本機並由使用者控管的程度。
- 固定成本:無論用量多寡,運作 AI 系統所需的經常性支出,包括基礎架構佈建和維護。
- 單次要求費用:每項傳入要求的額外費用。
- 相容性:這種做法在瀏覽器、裝置和環境中運作的廣泛程度,且不需備援邏輯。
- 使用者便利性:使用者是否需要執行額外步驟才能使用 AI 系統,例如下載模型。
- 開發人員便利性:大多數開發人員部署、整合及維護模型時,是否快速又輕鬆,且不需要具備專業的 AI 知識。
下表提供各平台在各項條件的預估表現範例,1 分最低,5 分最高。
| 條件 | 客戶 | 伺服器 | ||
| 內建 AI 或裝置端 AI | 自訂模型 | 代管服務 | 自行代管模型 | |
| 模型電源 |
為什麼模型功率只有 2 星?內建和裝置端 AI 使用預先載入的小型瀏覽器模型,專為特定工作功能進行最佳化調整,而非開放式對話或推理。 |
為什麼模型效能只有 3 星?自訂用戶端程式庫比內建 AI 更靈活,但仍受限於下載大小、記憶體限制和使用者硬體。 |
為什麼模型效能獲得 4 星評價?透過代管服務和自行代管,您可以存取大型先進模型,這些模型能夠進行複雜的推理、處理長篇內容,並涵蓋廣泛的任務。 |
|
| 自訂性 |
為什麼自訂程度只有 1 星?內建模型不允許存取模型權重或訓練資料。自訂模型行為的主要方式是透過提示工程 |
為什麼自訂程度獲得 5 星評價?這個選項可讓您控管模型選取和權重。許多用戶端程式庫也允許微調和訓練模型。 |
為什麼自訂程度只有 1 星?代管服務會公開強大的模型,但對模型內部行為的控制權極少。自訂內容通常僅限於提示和輸入內容。 |
為什麼自訂程度是 5 星?自架模型可全面控管模型權重、訓練資料、微調和部署設定。 |
| 準確性 |
為什麼準確度只有 2 星?內建模型的準確度足以處理範圍明確的任務,但模型大小和泛化能力有限,因此對於複雜或細微的輸入內容,可靠性會降低。 |
為什麼準確度只有 3 星?在模型選取過程中,可以提高自訂用戶端模型的準確度。不過,這仍會受到模型大小、量化和用戶端硬體變異性的限制。 |
為什麼準確度要達到 5 星?代管服務通常準確度較高,因為這類服務會使用大型模型、大量訓練資料,且供應商會持續改善服務。 |
為什麼準確度只有 4 星?準確度可能很高,但取決於所選模型和微調工作。效能可能不如代管服務。 |
| 網路延遲 |
為什麼網路延遲的評分是 5 星?處理作業會直接在使用者裝置上執行。 |
為什麼網路延遲只有 2 星?必須往返伺服器。 |
||
| 隱私權 |
為什麼隱私權評分是 5 星?根據預設,使用者資料應保留在裝置上,盡量減少資料外洩風險,並簡化隱私權法規遵循作業。 |
為什麼隱私權只給 2 星?使用者輸入內容必須傳送至外部伺服器,這會增加資料曝光度,並提高法規遵循要求。不過,您可以採取特定解決方案來減少隱私權問題,例如私有 AI 運算。 |
為什麼隱私權評分只有 3 星?資料仍由貴機構控管,但會離開使用者的裝置,因此需要採取安全處理和法規遵循措施。 |
|
| 固定費用 |
為什麼固定費用是 5 星?模型會在使用者現有的裝置上執行,因此不會產生額外的基礎架構費用。 |
為什麼固定費用是 5 星?大多數 API 都是按用量計費,因此沒有固定費用。 |
為什麼固定費用只有 2 星?固定成本包括基礎架構、維護和營運費用。 |
|
| 單次請求費用 |
為什麼要求成本獲得 5 星評價?由於推論是在使用者裝置上執行,因此不會產生任何要求費用。 |
為什麼「每次要求費用」的評分是 2 星?代管服務通常會根據要求收費。擴充費用可能會相當可觀,尤其是在流量較高時。 |
為什麼要求單次費用獲得 3 顆星?沒有直接的單次請求費用;單次請求的實際費用取決於基礎架構使用率。 |
|
| 相容性 |
為什麼相容性只有 2 星?適用情形因瀏覽器和裝置而異,因此需要為不支援的環境提供備援。 |
為什麼相容性評分只有 1 星?相容性取決於硬體功能和執行階段支援,因此可支援的裝置有限。 |
為什麼相容性評分是 5 星?伺服器端平台廣泛相容於所有使用者,因為推論是在伺服器端進行,用戶端只會使用 API。 |
|
| 使用者便利性 |
為何使用者便利性只有 3 星?這項功能推出後,通常會自動啟用,但內建 AI 需先下載模型,且瀏覽器必須支援。 |
為什麼使用者便利性只有 2 星?下載或不支援的硬體可能會導致延遲。 |
為何使用者便利性獲得 4 星評價?使用者不必下載任何內容,也不需符合裝置規定,即可立即使用,享受流暢體驗。不過,如果網路連線不穩,可能會發生延遲。 |
|
| 開發人員便利性 |
為什麼開發人員便利性獲得 5 星評價?內建 AI 功能設定簡單,不需要基礎架構,也不需要具備 AI 專業知識,因此整合及維護作業都非常容易。 |
為什麼開發人員便利性只有 2 星?需要管理模型、執行階段、效能最佳化,以及裝置相容性。 |
為什麼開發人員便利性只給 4 星?代管服務可簡化部署和擴充作業。不過,您仍需整合 API、管理成本及進行提示工程。 |
為什麼開發人員便利性只有 1 星?自訂伺服器端部署作業需要基礎架構、模型管理、監控和最佳化方面的專業知識。 |
| 維護工作 |
為何維護工作只給 4 星?瀏覽器會處理模型更新和最佳化作業,但開發人員必須因應供應情形變化進行調整。 |
為什麼維護工作只給 2 星?隨著瀏覽器和裝置不斷演進,模型、效能調整和相容性也需要持續更新。 |
為何維護工作獲得 5 星評價?維護作業由供應商負責。 |
為什麼維護工作只給 2 星?需要持續維護,包括更新模型、管理基礎架構、調度資源和確保安全。 |
分析取捨
為說明決策程序,我們將在 Example Shoppe (中型電子商務平台) 中新增另一項功能。您想節省非營業時間的客服成本,因此決定建構 AI 輔助的助理,回答使用者有關訂單、退貨和產品的問題。
您可以查看完整的 AI 系統藍圖,瞭解商機和解決方案。
從兩個角度分析情境:用途需求和業務/團隊限制。
| 規定 | 分析 | 條件 | 影響 |
| 準確度高且用途廣泛 | 使用者會詢問有關訂單、產品和退貨的各種複雜問題。 | 模型效能、準確率 | 需要大型語言模型 (LLM)。 |
| 資料具體性 | 並回答公司資料、產品和政策相關問題。 | 可自訂 | 需要資料擷取 (如 RAG),但不需要微調模型。 |
| 規定 | 分析 | 條件 | 影響 |
| 使用者族群 | 數十萬名使用者。 | 擴充性、相容性 | 需要能處理大量可靠流量的架構。 |
| 推出後重點 | 第 1 版推出後,團隊將轉移至其他專案。 | 維護工作 | 需要維護工作極少的解決方案。 |
| 團隊專業技能 | 網頁開發人員,AI/機器學習專業知識有限 | 方便開發人員 | 解決方案必須易於部署及整合,且不需具備專業的 AI 技能。 |
現在您已排定條件的優先順序,可以參考取捨估算表,判斷哪個平台最符合優先順序最高的條件:
| 優先條件 | 平台得獎者 |
| 機型 | 伺服器端 |
| 可自訂 | 伺服器端:自行託管模式 |
| 方便開發人員 | 伺服器端:代管服務 |
| 維護工作 | 伺服器端:代管服務 |
| 相容性和擴充性 | 伺服器端 |
從這份細目中可以看出,您應該使用伺服器端 AI,而且可能需要使用受管理服務。這項功能提供多功能模型,可處理複雜的顧客問題。 將基礎架構、模型品質和正常運作時間轉移給供應商,可大幅減少維護和開發工作。
雖然自訂程度有限,但對於模型工程經驗有限的網頁開發團隊來說,這項取捨是值得的。
檢索增強生成 (RAG) 設定可協助您在推論時為模型提供相關情境。
混合式 AI
成熟的 AI 系統很少只在單一平台或使用單一模型上運作。而是分配 AI 工作負載,以最佳化取捨。
發掘混合式 AI 的商機
推出後,您應根據實際資料和意見回饋,修正需求。以「Example Shoppe」為例,您等待幾個月後分析結果,發現以下情況:
- 約有 80% 的要求是重複的 (例如「我的訂單在哪裡?」、「如何退回這項產品?」)。將這些要求傳送至代管服務會產生大量負擔和費用。
- 只有 20% 的要求需要深入推理和開放式互動對話。
輕量型本機模型可以分類使用者輸入內容,並回答例行查詢,例如「退貨政策為何?」您可以將複雜、罕見或模稜兩可的問題轉送至伺服器端模型。
同時導入伺服器端和用戶端 AI,即可降低成本和延遲時間,同時在需要時存取強大的推理功能。
分配工作負載
如要為 Example Shoppe 建構這個混合式系統,請先定義預設系統。在這種情況下,最好從用戶端開始。應用程式應在下列兩種情況下,將要求傳送至伺服器端 AI:
- 相容性備援:如果使用者的裝置或瀏覽器無法處理要求,則應備援至伺服器
- 以功能為準的升級:如果要求過於複雜或開放式,不符合預先決定的條件,就應升級至較大的伺服器端模型。您可以運用模型將要求分類為常見或不常見,然後分別在用戶端執行工作,或將要求傳送至伺服器端系統。舉例來說,如果用戶端模型判斷問題與不常見的狀況有關,例如以其他幣別取得退款。
彈性會帶來更多複雜性
在兩個平台之間分配工作負載可提高彈性,但也會增加複雜度:
- 協調:兩個執行環境代表更多活動部分。您需要轉送、重試和備援的邏輯。
- 版本控管:如果您在不同平台使用相同模型,則必須確保模型在兩種環境中都能相容。
- 提示工程和情境工程: 如果你在各個平台使用不同模型,則必須為每個模型執行提示工程。
- 監控:記錄和指標會分開,需要額外整合。
- 安全性:您要維護兩個攻擊面。無論是本機端點或雲端端點,都需要強化安全性。
這是另一個需要考量的取捨。如果團隊規模不大,或是您要建構非必要功能,可能就不想增加這項複雜度。
重點摘要
預期平台選擇會不斷演變。從用途著手,配合團隊的經驗和資源,並隨著產品和 AI 成熟度提升而反覆調整。您的任務是為使用者找出速度、隱私權和控制權的適當組合,然後彈性地建構。這樣一來,您就能因應不斷變化的需求,並享有日後平台和模型更新帶來的優勢。
資源
- 平台和模型選擇互有關聯,因此請進一步瞭解模型選擇。
- 瞭解如何透過混合式和用戶端 AI 擴展雲端功能
隨堂測驗
為應用程式選擇 AI 平台時,主要考量因素為何?
何時最適合在平台中使用 Gemini Pro 等伺服器端管理服務?
實作混合式 AI 系統的主要優點是什麼?