發布日期:2025 年 2 月 25 日
網頁開發人員一直以來都會為人類和非人類目標對象 (包括檢索器和其他機器人) 建構及最佳化網站。AI 代理程式是最新一代的網路使用者,可從最佳化作業中獲益。
從本質上來說,代理就是一個系統,可接收輸入內容、解讀內容,然後代表使用者 (無論是人類或其他代理) 規劃及執行動作。代理程式有多個元件,包括模型、API 或其他工具。
代理程式的定義有幾項特徵。在網頁開發環境中,您應考慮下列事項:
- 自主:代理可自主作業,不需人為直接介入。
- 互動式:代理程式可以與其他代理程式和人類對話。
- 反應式:代理程式會感知環境並回應變化。
- 主動:代理程式可主動達成特定目標。
舉例來說,Example Bookshop 是線上書店。使用者可以與大型語言模型 (LLM) 互動,根據自己喜歡的書籍和其他興趣,取得新書推薦。服務專員可以帶使用者前往推薦書籍的頁面,並啟動結帳程序。如果書籍缺貨,代理程式可以引導使用者前往其他線上書店購買。
由於代理程式是網路上相當新的使用者,因此您有時間可以採用最佳做法。不過,許多有助於代理商的最佳做法,其實對所有使用者都有幫助,特別是建構無障礙網站。
本文將說明代理程式如何以網路使用者的身分運作,以及為何您應考慮建構網站時將代理程式納入考量。
代理程式如何以使用者身分運作
許多關於 AI 和網站的討論都與用於擷取 LLM 訓練資料的檢索器有關。用於訓練的網頁擷取資料通常會保存在 Common Crawl 等開放資料集中,有助於避免網站遭檢索器大量存取。不過,訓練只是您會遇到 AI 系統的原因之一。
AI 系統可根據特定使用者 (無論是真人或代理程式) 的要求,指定要擷取的網頁。舉例來說,使用者可以提供來源給 NotebookLM,系統會擷取內容,以便更有效地協助使用者完成相關工作,例如摘要或資料彙整。
代理程式會遵循類似模式,代表使用者檢索網頁,以回應使用者的要求,但流程可能較不線性。
代理程式長期以來都用於自動化工作和收集資訊, 現在還能點選連結和按鈕、填寫欄位,以及捲動頁面, 代表使用者完成工作流程。這些工作可以是填寫聯絡表單等簡單任務,也可以是為家人預訂機票等複雜任務。
瞭解同意聲明是這類新型代理程式最重要的技能,因為它們是人類的同伴。在購買步驟或提交含有私密資訊的表單等重要環節,服務專員應要求確認。
代理人擔任隨播廣告素材
代理程式可以做為人類使用者的同伴,甚至是替代者,協助在網站或網路應用程式上完成複雜工作。大致來說,代理程式的程序一律相同:
- 接收查詢。
- 處理及規劃如何解決查詢。
- 執行計畫。
- 將學到的經驗儲存到記憶體。
代理程式最適合支援跨多個來源的任務。以購買書籍為例,代理程式可能會在你的來源上完成工作,同時瀏覽其他類似來源。網站越能支援代理程式完成工作,代理程式就越有可能使用您的來源完成工作。
身為網頁開發人員,您的工作是支援及建構工具,協助人類和代理程式有效率地完成重要工作。但工具只是代理程式基礎架構的一環。
代理程式基礎架構
代理程式是包含多個連結部分的封閉單元:
- 模型:大型語言模型 (LLM) 是 AI 代理的基礎。這些模型具備推論能力、知識基礎,以及處理和生成語言的能力。
- 規則:各種限制 (包括角色、指令和目標) 有助於代理程式持續執行工作。
- 記憶:短期記憶和長期記憶可協助代理程式管理脈絡、提高效率,並為使用者提供更優質的服務。
- 工具:代理可使用許多不同的工具,包括 API、函式、資料庫,甚至是其他代理。舉例來說,WebMCP 是 Chrome 早期預覽計畫中的提案,可支援網站上的結構化互動。
代理程式將網站視為資料來源或直接與網頁互動時,可以透過視覺或語意方式進行:
- 視覺互動:代理程式會擷取轉譯網頁的快照。 這項功能會使用視覺模型讀取內容,並找出互動式元素。
- 語意互動:代理程式會分析 DOM 並直接讀取文字。 執行自動化工作的代理程式特別容易發生這種情況。
無論是視覺或語意互動,代理程式都能從設計完善、導覽直覺且內容階層分明的網站獲益。
代理程式需要存取資料
定義代理的方式之一是根據代理與資料的關係。代理程式和資料的擁有者是否相同?這項選擇會決定需要哪些驗證層級,以及完成工作有多困難。
第一方代理
零方代理程式是以瀏覽器或作業系統為基礎,可使用本機資料在本機環境中運作。由於瀏覽器和作業系統會儲存自訂使用者偏好設定,而這些設定可能屬於個人識別資訊 (PII),因此零方代理程式可以防止作業與其他方共用這類資料。
第一方代理商
第一方代理程式是指工具和資訊由同一方擁有,因此開發人員可以擁有及支援工具,並管理資訊和設定的存取權。
舉例來說,假設您是使用者,打算前往多倫多度假,並想建立必訪景點清單。Google 地圖提供的代理程式可以根據一組條件和資料,代表您產生興趣點清單,並在地圖上標示每個項目。由於代理程式是由 Google 提供,且 Google 也擁有地圖資料和登入使用者儲存的任何其他個人偏好設定,因此可視為第一方代理程式。
第三方代理程式
第三方代理程式是由外部開發人員或機構建立,可提供外部服務的功能和資料。舉例來說,您可能希望第三方日曆供應商支援網站上的活動相關功能。您可以提供 WebMCP 等工具給這些代理程式,或將代理程式整合到工作流程中 (前提是代理程式通過隱私權審查)。
如果建構為擴充功能,第三方代理程式理論上可以完成相同的對應工作。
開發人員可以建構代理程式,依據特定來源建立清單,例如從當地報紙擷取最佳餐廳。除了清單建立工具 (無論是 Google 地圖或其他服務) 的讀取和寫入權限外,這位專員還需要當地報紙網站的讀取權限。這需要多層同意聲明和權限,以及與網站互動的特定工具 (例如 Playwright 工具)。
您的網站或網路應用程式可能就是代理程式的第三方資訊供應商。在這種情況下,您可能需要提供權限結構,讓代理程式和人類都能與您一起完成工作。
重點整理
現在您已瞭解代理程式的運作方式,可以決定如何充分善用網站支援代理程式。
我們會持續更新這個系列,提供實用的最佳做法,協助您支援網站和 Web 應用程式與代理程式的互動。