智能体简介

发布时间:2025 年 2 月 25 日

Alexandra Klepper
Alexandra Klepper
Kasper Kulikowski
Kasper Kulikowski

网页开发者一直在为人类和非人类受众群体(包括抓取工具和其他漫游器)构建和优化网站。AI 智能体是最新受益于您的优化的网络用户。

从本质上讲,智能体是一种接收输入、解读输入,然后代表用户(无论是人类还是其他智能体)规划和执行操作的系统。智能体具有多个组件,这些组件可以包括模型、API 或其他工具。

代理具有多种特征。在 Web 开发环境中,您应考虑以下方面:

  • 自主:智能体无需直接的人工干预即可运行。
  • 互动式:智能体可以与其他智能体和人类对话。
  • 反应式:智能体感知环境并对变化做出响应。
  • 主动:智能体可以主动采取行动来实现特定目标。

例如,“示例书店”是一家在线书店。用户可以通过与大语言模型 (LLM) 互动,根据自己喜欢的图书和其他兴趣获取新书推荐。代理可以将用户引导至推荐图书的页面,并开始结账流程。如果图书缺货,代理可以将用户引导至其他在线书店购买该推荐图书。

由于代理是网络上相对较新的用户,因此您在采用最佳实践之前还有一些时间。不过,许多有助于客服人员的实用技巧实际上也有助于所有用户,尤其是打造无障碍网站

本文档将介绍代理如何以网络用户的身份运行,以及您为何应考虑在构建网站时考虑到代理。

智能体如何以用户身份运行

关于 AI 和网站的讨论大多集中在用于抓取 LLM 训练数据的爬虫上。用于训练的抓取数据通常保存在 Common Crawl 等开放数据集中,这有助于防止网站被抓取工具过度访问。不过,训练只是您会遇到 AI 系统的一个原因。

AI 系统可以根据特定用户(无论是人类还是代理)的请求,定位要抓取的特定网页。例如,用户可以向 NotebookLM 提供来源,然后系统会抓取相应内容,以便更好地帮助用户完成相关任务,例如总结或数据汇总。

代理会遵循类似的模式,并代表用户抓取网页,以回答用户的请求,但流程可能不太线性。

虽然代理长期以来一直用于自动化任务和收集信息,但现在它们可以点击链接和按钮、填写字段以及在网页上滚动,从而代表用户完成工作流程。这些任务可以是填写联系表单等简单任务,也可以是为家人预订机票等复杂任务。

对于这些新型代理,了解用户同意情况是最重要的技能,因为它们充当人类的陪伴者。在关键点(例如购买步骤或提交包含敏感信息的表单)上,代理应要求用户确认。

作为伴侣的智能体

代理可以是人类用户的陪伴者,甚至是替代者,帮助用户在您的网站或 Web 应用上完成复杂的任务。从宏观层面来看,智能体的流程始终相同:

  1. 接收查询。
  2. 处理并规划如何回答查询。
  3. 执行方案。
  4. 将所有经验教训保存到记忆中。

代理最适合支持跨多个来源的任务。在购买图书时,代理可能会在您的来源上完成任务,同时还会浏览其他类似来源。您的网站越能支持代理完成任务,代理就越有可能使用您的来源完成任务。

作为 Web 开发者,您的工作是支持和构建工具,帮助人类和代理高效完成关键任务。不过,工具只是代理基础架构的一部分。

代理基础架构

人类与代理协作。每个片段都会向模型发送信息并从模型接收信息。
人类与包含模型、规则、内存和工具的智能体协作。

代理是一个包含多个关联部分的单元:

  • 模型:大语言模型 (LLM) 是 AI 智能体的基础。 这些模型提供推理能力、知识库以及处理和生成语言的能力。
  • 规则:各种限制条件,包括角色、指令和目标,有助于智能体始终如一地执行任务。
  • 记忆:短期记忆和长期记忆可帮助智能体管理上下文、提高效率,并为用户提供更好的整体体验。
  • 工具:智能体可以使用许多不同的工具,包括 API、函数、数据库,甚至其他智能体。例如,WebMCP 是 Chrome 早期预览版计划中的一项提案,旨在支持网站上的结构化互动。

当代理将网站视为数据源或直接与网页互动时,它们可以通过视觉或语义方式进行互动:

  • 可视化互动:智能体拍摄呈现的网页的快照。 它使用视觉模型来读取内容并识别互动元素。
  • 语义交互:智能体分析 DOM 并直接读取文本。对于执行自动化任务的代理,这种情况尤为常见。

无论是视觉互动还是语义互动,代理都能从设计精良、导航直观且内容层次结构清晰的网站中受益。

智能体需要访问数据

一种定义智能体的方式是根据其与数据的关系。代理和数据的所有者是同一人还是不同的人?此选择决定了需要哪些身份验证层级,以及完成任务的难度。

零方代理

零方代理是一种基于浏览器或操作系统的代理,可在本地环境中使用本地数据。由于浏览器和操作系统会存储可被视为个人身份信息 (PII) 的自定义用户偏好设置,因此零方代理可以阻止与第三方共享此类数据的操作。

第一方代理

第一方代理是指工具和信息归同一方所有,因此开发者可以拥有和支持工具,管理对信息和配置的访问权限。

例如,假设您是一位用户,正在计划前往多伦多度假,并且想要创建一个要参观的景点列表。Google 地图提供的代理可以根据一组条件和数据生成兴趣点列表,并在地图上标记每个项目。这可以视为第一方代理,因为该代理由 Google 提供,而 Google 也拥有地图数据以及已登录用户存储的任何其他个人偏好设置。

第三方智能体

第三方代理由外部开发者或组织创建,可提供外部服务中的功能和数据。例如,您可能希望第三方日历提供商支持您网站上基于活动的某项功能。 您可以向这些代理提供工具(例如 WebMCP),也可以将这些代理集成到您的工作流中(前提是它们通过了您的隐私权审核)。

如果第三方代理作为扩展程序构建,则可以完成相同的映射任务。

开发者可以构建一个依赖特定来源来创建列表的代理,例如从当地报纸中提取最佳餐厅。除了列表创建工具(无论是 Google 地图还是替代服务)的读写权限之外,此代理还需要本地报纸网站的读取权限。这需要多层同意声明和权限,以及用于与网站互动的特定工具(例如 Playwright 工具)。

您的网站或 Web 应用很可能成为代理的第三方信息提供商。在这种情况下,您可能需要提供一种权限结构,让代理和人类能够与您一起完成任务。

要点总结

现在,您已经了解了智能体的工作方式,接下来可以决定如何让网站更好地支持智能体。

我们将继续更新本系列,提供切实可行的最佳实践,以支持您的网站和 Web 应用与智能体之间的互动。