適當規模的 AI:有益於企業、使用者和地球

發布日期:2025 年 11 月 10 日

使用 AI 建構網站和網路應用程式時,您可能已使用 ChatGPT、Gemini 或 Claude 等大型語言模型 (LLM) 製作原型,然後將該實作項目部署至正式環境。LLM 是一種基礎模型,屬於預先訓練的超大型模型,需要大量資源且成本高昂,通常不是執行工作的最佳工具。相較於「一體適用」的基礎模型,規模較小的本機特定工作模型耗用的資源較少,而且通常能以較低的成本,提供更優質、更快速的回覆。

選擇更優質的模型,就是選擇更永續的做法,我們稱之為「適當大小的 AI」。適當大小的 AI 可提供:

  • 降低使用者延遲:模型在本機執行,不必往返遠端伺服器。
  • 降低 API 費用:您不必為未使用的功能付費。
  • 離線存取應用程式:存取裝置端模型,打造更可靠的體驗。

雖然基礎模型擅長一般推理和對話,但將其用於特定工作 (例如文字分類或資料擷取),就像開一級方程式賽車去麥當勞一樣。技術上可行,但效率非常低 (而且乘客會很不舒服)。請根據實際需求調整實作方式。

永續 AI 做法和最佳使用者體驗並非互斥的優先事項。兩者只是以不同方式表達相同的優先順序。

評估 AI 對環境的影響方法之一是:

  • 訓練:初始模型訓練需要大量資源。這項最佳化和「學習」作業由模型供應商管理。
  • 推論:提供新輸入內容 (提示) 給已訓練的模型,生成輸出內容 (回覆文字) 時,即為執行推論。相較於訓練,推論使用的資源大幅減少。

訓練費用是固定的,但推論費用會隨用量調整,因此選擇模型是您可以控制的關鍵因素。您可以根據自己的用途和地球環境做出明智選擇,支持負責任的 AI 開發。

導入以使用者為優先的 AI

請打造「使用者優先」的 AI,而非「模型優先」的 AI。請考慮 AI 可以執行哪些工作,讓應用程式更容易使用,或減少使用者的工作量或必須進行的內容切換次數。

舉例來說,假設您經營的商家名為「Rewarding Eats」,會為在特定餐廳用餐的使用者提供點數。你可以使用 AI 掃描收據圖片,取得餐廳名稱和消費總金額,不必請顧客手動輸入。這項功能可望提升應用程式的使用者體驗。

打造以使用者為優先的 AI 時,請注意以下事項:

  1. 定義工作要求。AI 需要執行哪些工作? 是純文字內容,還是包含音訊或影像元素?
  2. 選擇合適的模型。不同模型擅長處理不同工作,而且通常佔用較少資源。
  3. 瞭解部署作業限制。模型應存放在哪裡?資料會儲存在哪裡?使用者連線是否穩定?
  4. 採用漸進式強化做法,打造最快速、最安全的優質使用者體驗。

定義工作需求

您不應尋找「可使用 AI 的地方」或「要新增的 AI 功能」,而是要問:「無摩擦體驗會是什麼樣子?」視貴公司規模而定,您應與產品經理討論這項問題。

以我們的範例應用程式「Rewarding Eats」為例,首先要問的問題是:「我們需要 AI 嗎?」

基礎模型可以根據收據草擬支出項目,但需要一些提示。 但更有效率的處理方式完全不需要大型模型。使用光學字元辨識 (OCR) 剖析圖片中的文字,然後將剖析結果傳遞至文字分類模型等特定工作模型,從剖析文字中找出項目和費用。這項作業可在使用者裝置上完成,不會將任何資料傳送至伺服器。

在大多數情況下,如果您認為需要基礎模型,可能需要將問題分解為個別工作。

選擇合適的機型

瞭解要完成的任務後,即可為工作選擇合適的模型類型和模型。雖然基礎模型較容易取得,但小型模型能以更快的速度和更低的成本完成工作。瞭解工作內容後,您就能選擇合適的小型模型來處理工作。

可用的模型類型和模型種類繁多,因此請參閱模型選取深入探討,為專案選擇合適的模型。

為模型選擇合適的位置

基礎模型過於龐大,即使是最強大的桌上型電腦也無法執行,但較小的 LLM、小型語言模型 (SLM) 和特定工作模型則可在許多裝置上執行。

不建議使用 不建議使用 建議
小型語言模型 (SLM) 建議 建議 建議
基礎模型 不建議使用 不建議使用 建議

SLM 方便但並不常見。目前有數十億支手機,但只有最新款和較昂貴的機型才能執行本機 SLM。這只占市場的一小部分。

請使用這個矩陣,判斷最適合模型的位置:

指標 用戶端 / 本機 伺服器端 / 遠端
連線能力 需要離線模式、網路不穩、安全設施 一律連線的環境
資料位置 處理使用者相片、文字輸入內容、個人檔案 處理伺服器端文件、資料庫
使用模式 高頻率通話 (即時通訊翻譯、即時分析) 偶爾處理複雜工作
頻寬 行動裝置使用者、鄉村地區、大型檔案輸出 無限寬頻,回應較短
隱私權與安全性 受監管資料 (醫療保健、金融)、嚴格的法規遵循 標準業務資料、完善的安全基礎架構
電池影響 電腦版應用程式、容許耗電的用途 電池電量不足時的行動應用程式

用戶端推論、漸進式強化和混合式

透過 TensorFlow.jsTransformers.jsONNX.js 等程式庫,應用程式可使用使用者資料執行用戶端推論。將模型轉換為適當格式,然後遠端代管或直接嵌入應用程式。為提供最佳使用者體驗,請順暢混合使用預先載入、可下載及遠端模型,讓使用者順利完成工作。

即使基於安全性 (或大小需求) 考量,偏好使用遠端雲端代管模型,但在連線中斷時提供足夠的本機模型,仍可打造彈性體驗。

最終,模型部署有三種方法。選擇最符合需求的選項。

  • 以本機優先:應用程式有離線需求、使用頻率高、需要處理機密資料。
  • 遠端優先:複雜的推理、大型模型、不常使用。
  • 混合式做法:使用 API 時下載小型模型,準備就緒後再切換。

後續步驟

技術通常是實作後的產物。開發人員如要影響產業發展方向,進而提升使用者體驗並為世界帶來更好的結果,最佳做法是:

  • 選擇適合的工具:較小的模型耗用的資源較少,而且在提示工程的輔助下,通常能達到與大型模型相同的成效。減少延遲。
  • 要求推論和訓練費用透明度。建議公司優先採用會揭露這些數字的模型。
  • 將模型放在資料附近,以減少往返伺服器的費用。
  • 使用現有資源。如果裝置上已有模型,請優先使用這些模型。

資源

如要深入瞭解這些主題,請參閱我撰寫本文時使用的下列資源。非常值得一讀。

模型效能與研究

實作和開發工具