感谢您关注 Google I/O 大会！观看点播内容。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

智能体简介

发布时间：2025 年 2 月 25 日

Alexandra Klepper

Kasper Kulikowski

Rachel Lee Nabors

网页开发者一直在为人类和非人类受众群体（包括抓取工具和其他漫游器）构建和优化网站。AI 智能体是最新受益于您的优化的网络用户。

从本质上讲，智能体是一种接收输入、解读输入，然后代表用户（无论是人类还是其他智能体）规划和执行操作的系统。智能体具有多个组件，这些组件可以包括模型、API 或其他工具。

代理具有多种特征。在 Web 开发环境中，您应考虑以下方面：

自主：智能体无需直接的人工干预即可运行。
互动式：智能体可以与其他智能体和人类对话。
反应式：智能体感知环境并对变化做出响应。
主动：智能体可以主动采取行动来实现特定目标。

例如，“示例书店”是一家在线书店。用户可以通过与大语言模型 (LLM) 互动，根据自己喜欢的图书和其他兴趣获取新书推荐。代理可以将用户引导至推荐图书的页面，并开始结账流程。如果图书缺货，代理可以将用户引导至其他在线书店购买该推荐图书。

由于代理是网络上相对较新的用户，因此您在采用最佳实践之前还有一些时间。不过，许多有助于客服人员的实用技巧实际上也有助于所有用户，尤其是打造无障碍网站。

本文档将介绍代理如何以网络用户的身份运行，以及您为何应考虑在构建网站时考虑到代理。

智能体如何以用户身份运行

关于 AI 和网站的讨论大多集中在用于抓取 LLM 训练数据的爬虫上。用于训练的抓取数据通常保存在 Common Crawl 等开放数据集中，这有助于防止网站被抓取工具过度访问。不过，训练只是您会遇到 AI 系统的一个原因。

AI 系统可以根据特定用户（无论是人类还是代理）的请求，定位要抓取的特定网页。例如，用户可以向 NotebookLM 提供来源，然后系统会抓取相应内容，以便更好地帮助用户完成相关任务，例如总结或数据汇总。

代理会遵循类似的模式，并代表用户抓取网页，以回答用户的请求，但流程可能不太线性。

虽然代理长期以来一直用于自动化任务和收集信息，但现在它们可以点击链接和按钮、填写字段以及在网页上滚动，从而代表用户完成工作流程。这些任务可以是填写联系表单等简单任务，也可以是为家人预订机票等复杂任务。

对于这些新型代理，了解用户同意情况是最重要的技能，因为它们充当人类的陪伴者。在关键点（例如购买步骤或提交包含敏感信息的表单）上，代理应要求用户确认。

作为伴侣的智能体

代理可以是人类用户的陪伴者，甚至是替代者，帮助用户在您的网站或 Web 应用上完成复杂的任务。从宏观层面来看，智能体的流程始终相同：

接收查询。
处理并规划如何回答查询。
执行方案。
将所有经验教训保存到记忆中。

代理最适合支持跨多个来源的任务。在购买图书时，代理可能会在您的来源上完成任务，同时还会浏览其他类似来源。您的网站越能支持代理完成任务，代理就越有可能使用您的来源完成任务。

作为 Web 开发者，您的工作是支持和构建工具，帮助人类和代理高效完成关键任务。不过，工具只是代理基础架构的一部分。

代理基础架构

人类与代理协作。每个片段都会向模型发送信息并从模型接收信息。 — 人类与包含模型、规则、内存和工具的智能体协作。

代理是一个包含多个关联部分的单元：

模型：大语言模型 (LLM) 是 AI 智能体的基础。这些模型提供推理能力、知识库以及处理和生成语言的能力。
规则：各种限制条件，包括角色、指令和目标，有助于智能体始终如一地执行任务。
记忆：短期记忆和长期记忆可帮助智能体管理上下文、提高效率，并为用户提供更好的整体体验。
工具：智能体可以使用许多不同的工具，包括 API、函数、数据库，甚至其他智能体。例如，WebMCP 是 Chrome 早期预览版计划中的一项提案，旨在支持网站上的结构化互动。

当代理将网站视为数据源或直接与网页互动时，它们可以通过视觉或语义方式进行互动：

可视化互动：智能体拍摄呈现的网页的快照。它使用视觉模型来读取内容并识别互动元素。
语义交互：智能体分析 DOM 并直接读取文本。对于执行自动化任务的代理，这种情况尤为常见。

无论是视觉互动还是语义互动，代理都能从设计精良、导航直观且内容层次结构清晰的网站中受益。

智能体需要访问数据

一种定义智能体的方式是根据其与数据的关系。代理和数据的所有者是同一人还是不同的人？此选择决定了需要哪些身份验证层级，以及完成任务的难度。

零方代理

零方代理是一种基于浏览器的代理，可在本地环境中使用本地数据。由于浏览器会存储可能被视为个人身份信息 (PII) 的自定义用户偏好设置，因此零方代理可以阻止与第三方共享这些数据的操作。

第一方代理

第一方代理是指工具和信息归同一方所有，因此开发者可以拥有和支持工具，管理对信息和配置的访问权限。

例如，假设您是一位用户，正在计划前往多伦多度假，并且想要创建一个要参观的景点列表。Google 地图提供的代理可以根据一组条件和数据生成兴趣点列表，并在地图上标记每个项目。这可以视为第一方代理，因为该代理由 Google 提供，而 Google 也拥有地图数据以及已登录用户存储的任何其他个人偏好设置。

第三方智能体

第三方代理由外部开发者或组织创建，可提供外部服务中的功能和数据。例如，您可能希望第三方日历提供商支持您网站上基于活动的某项功能。您可以向这些代理提供工具（例如 WebMCP），也可以将这些代理集成到您的工作流中（前提是它们通过了您的隐私权审核）。

如果第三方代理作为扩展程序构建，则可以完成相同的映射任务。

开发者可以构建一个依赖特定来源来创建列表的代理，例如从当地报纸中提取最佳餐厅。除了列表创建工具（无论是 Google 地图还是替代服务）的读写权限之外，此代理还需要本地报纸网站的读取权限。这需要多层同意声明和权限，以及用于与网站互动的特定工具（例如 Playwright 工具）。

您的网站或 Web 应用很可能成为代理的第三方信息提供商。在这种情况下，您可能需要提供一种权限结构，让代理和人类能够与您一起完成任务。

要点总结

现在，您已经了解了智能体的工作方式，接下来可以决定如何让网站更好地支持智能体。

了解 WebMCP 并参与抢先试用计划。
了解如何构建无障碍网站。
学习 Learn AI 课程，了解如何将 AI 系统添加到您的网站。

我们将继续更新本系列，提供切实可行的最佳实践，以支持您的网站和 Web 应用与智能体之间的互动。