感謝觀看 Google I/O 大會！立即觀賞隨選內容。

本頁面由 Cloud Translation API 翻譯而成。

適當規模的 AI：有益於企業、使用者和地球

Rachel Lee Nabors

發布日期：2025 年 11 月 10 日

使用 AI 建構網站和網路應用程式時，您可能已使用 ChatGPT、Gemini 或 Claude 等大型語言模型 (LLM) 製作原型，然後將該實作項目部署至正式環境。LLM 是一種基礎模型，屬於預先訓練的超大型模型，需要大量資源且成本高昂，通常不是執行工作的最佳工具。相較於「一體適用」的基礎模型，規模較小的本機特定工作模型耗用的資源較少，而且通常能以較低的成本，提供更優質、更快速的回覆。

選擇更優質的模型，就是選擇更永續的做法，我們稱之為「適當大小的 AI」。適當大小的 AI 可提供：

降低使用者延遲：模型在本機執行，不必往返遠端伺服器。
降低 API 費用：您不必為未使用的功能付費。
離線存取應用程式：存取裝置端模型，打造更可靠的體驗。

雖然基礎模型擅長一般推理和對話，但將其用於特定工作 (例如文字分類或資料擷取)，就像開一級方程式賽車去麥當勞一樣。技術上可行，但效率非常低 (而且乘客會很不舒服)。請根據實際需求調整實作方式。

永續 AI 做法和最佳使用者體驗並非互斥的優先事項。兩者只是以不同方式表達相同的優先順序。

評估 AI 對環境的影響方法之一是：

訓練：初始模型訓練需要大量資源。這項最佳化和「學習」作業由模型供應商管理。
推論：提供新輸入內容 (提示) 給已訓練的模型，生成輸出內容 (回覆文字) 時，即為執行推論。相較於訓練，推論使用的資源大幅減少。

訓練費用是固定的，但推論費用會隨用量調整，因此選擇模型是您可以控制的關鍵因素。您可以根據自己的用途和地球環境做出明智選擇，支持負責任的 AI 開發。

導入以使用者為優先的 AI

請打造「使用者優先」的 AI，而非「模型優先」的 AI。請考慮 AI 可以執行哪些工作，讓應用程式更容易使用，或減少使用者的工作量或必須進行的內容切換次數。

舉例來說，假設您經營的商家名為「Rewarding Eats」，會為在特定餐廳用餐的使用者提供點數。你可以使用 AI 掃描收據圖片，取得餐廳名稱和消費總金額，不必請顧客手動輸入。這項功能可望提升應用程式的使用者體驗。

打造以使用者為優先的 AI 時，請注意以下事項：

定義工作要求。AI 需要執行哪些工作？是純文字內容，還是包含音訊或影像元素？
選擇合適的模型。不同模型擅長處理不同工作，而且通常佔用較少資源。
瞭解部署作業限制。模型應存放在哪裡？資料會儲存在哪裡？使用者連線是否穩定？
採用漸進式強化做法，打造最快速、最安全的優質使用者體驗。

定義工作需求

您不應尋找「可使用 AI 的地方」或「要新增的 AI 功能」，而是要問：「無摩擦體驗會是什麼樣子？」視貴公司規模而定，您應與產品經理討論這項問題。

以我們的範例應用程式「Rewarding Eats」為例，首先要問的問題是：「我們需要 AI 嗎？」

基礎模型可以根據收據草擬支出項目，但需要一些提示。但更有效率的處理方式完全不需要大型模型。使用光學字元辨識 (OCR) 剖析圖片中的文字，然後將剖析結果傳遞至文字分類模型等特定工作模型，從剖析文字中找出項目和費用。這項作業可在使用者裝置上完成，不會將任何資料傳送至伺服器。

在大多數情況下，如果您認為需要基礎模型，可能需要將問題分解為個別工作。

選擇合適的機型

瞭解要完成的任務後，即可為工作選擇合適的模型類型和模型。雖然基礎模型較容易取得，但小型模型能以更快的速度和更低的成本完成工作。瞭解工作內容後，您就能選擇合適的小型模型來處理工作。

可用的模型類型和模型種類繁多，因此請參閱模型選取深入探討，為專案選擇合適的模型。

為模型選擇合適的位置

基礎模型過於龐大，即使是最強大的桌上型電腦也無法執行，但較小的 LLM、小型語言模型 (SLM) 和特定工作模型則可在許多裝置上執行。

模型類型	已在裝置上 (用戶端)	下載到裝置上	伺服器代管模型
特定工作專用模型	不建議使用	不建議使用	建議
小型語言模型 (SLM)	建議	建議	建議
基礎模型	不建議使用	不建議使用	建議

SLM 方便但並不常見。目前有數十億支手機，但只有最新款和較昂貴的機型才能執行本機 SLM。這只占市場的一小部分。

請使用這個矩陣，判斷最適合模型的位置：

指標	用戶端 / 本機	伺服器端 / 遠端
連線能力	需要離線模式、網路不穩、安全設施	一律連線的環境
資料位置	處理使用者相片、文字輸入內容、個人檔案	處理伺服器端文件、資料庫
使用模式	高頻率通話 (即時通訊翻譯、即時分析)	偶爾處理複雜工作
頻寬	行動裝置使用者、鄉村地區、大型檔案輸出	無限寬頻，回應較短
隱私權與安全性	受監管資料 (醫療保健、金融)、嚴格的法規遵循	標準業務資料、完善的安全基礎架構
電池影響	電腦版應用程式、容許耗電的用途	電池電量不足時的行動應用程式

用戶端推論、漸進式強化和混合式

透過 TensorFlow.js、Transformers.js 和 ONNX.js 等程式庫，應用程式可使用使用者資料執行用戶端推論。將模型轉換為適當格式，然後遠端代管或直接嵌入應用程式。為提供最佳使用者體驗，請順暢混合使用預先載入、可下載及遠端模型，讓使用者順利完成工作。

即使基於安全性 (或大小需求) 考量，偏好使用遠端雲端代管模型，但在連線中斷時提供足夠的本機模型，仍可打造彈性體驗。

最終，模型部署有三種方法。選擇最符合需求的選項。

以本機優先：應用程式有離線需求、使用頻率高、需要處理機密資料。
遠端優先：複雜的推理、大型模型、不常使用。
混合式做法：使用 API 時下載小型模型，準備就緒後再切換。

後續步驟

技術通常是實作後的產物。開發人員如要影響產業發展方向，進而提升使用者體驗並為世界帶來更好的結果，最佳做法是：

選擇適合的工具：較小的模型耗用的資源較少，而且在提示工程的輔助下，通常能達到與大型模型相同的成效。減少延遲。
要求推論和訓練費用透明度。建議公司優先採用會揭露這些數字的模型。
將模型放在資料附近，以減少往返伺服器的費用。
使用現有資源。如果裝置上已有模型，請優先使用這些模型。

資源

如要深入瞭解這些主題，請參閱我撰寫本文時使用的下列資源。非常值得一讀。

模型效能與研究

小型語言模型是代理式 AI 的未來 (NVIDIA 研究論文)：支援 SLM 功能的研究
Mistral 的環境影響稽核：訓練和推論成本透明度
Google 的推論成本研究：環境影響評估
自然研究：AI 與人類對環境的影響：比較 AI 和人類完成工作的情況
AI 對環境的影響討論：環境論述的背景

實作和開發工具

載入 TensorFlow.js 模型：用戶端模型部署
Transformers.js 範例：以瀏覽器為基礎的模型推論
ONNX.js 執行階段：跨平台模型部署
Firebase 混合式 AI 指南：整合本機和遠端模型