选择您的平台

在利用 AI 构建应用之前,您必须选择托管该应用的平台。您的选择会影响 AI 系统的速度、成本、可伸缩性和可信度。您可以从以下选项中进行选择:

  • 客户端 AI:直接在浏览器中运行。这意味着数据可以保留在用户设备上,保持私密性,并且不会产生网络延迟。不过,为了实现良好的性能,客户端 AI 需要高度具体、明确定义的应用场景。
  • 服务器端 AI:在云端运行。它功能强大且可伸缩性高,但在延迟时间和费用方面成本更高。

每种方案都有利有弊,具体选择哪种设置取决于您的使用情形、团队技能和资源。例如,您可以提供在本地运行的总结工具,以便用户提出个人问题,而无需管理个人身份信息 (PII)。不过,客户支持代理可以使用基于云的模型来访问庞大的资源数据库,从而提供更有用的答案。

在本模块中,您将学习如何:

  • 比较客户端 AI 和服务器端 AI 之间的权衡取舍。
  • 根据您的使用场景和团队能力选择合适的平台。
  • 设计混合系统,在客户端和服务器上提供 AI,以便随着产品的发展而发展。

查看选项

对于部署,请从两个主要方面考虑 AI 平台。您可以选择:

  • 模型运行位置:是在客户端还是服务器端运行?
  • 可自定义程度:您对模型的知识和功能有多大的控制权?如果您可以控制模型(即可以修改模型权重),则可以自定义其行为,以满足您的特定要求。
基于平台和控制的模型的示例。
图 1:AI 平台选项,按部署平台和控制级别区分。

客户端 AI

客户端 AI 在浏览器中运行,计算在用户的设备上本地进行。您无需提供推理时计算,数据会保留在用户的设备上。这使得它快速、私密,适合轻量级互动体验。

不过,客户端模型通常很小,这可能会限制其功能和性能。它们最适合用于高度专业化的任务,例如检测有害内容或进行情感分析。这些任务通常是预测性 AI 任务,具有有限的输出空间

主要有两种方案:

  • 内置 AIGoogle ChromeMicrosoft Edge 等浏览器正在集成 AI 模型。这些 API 可通过 JavaScript 调用进行访问,无需设置或托管。下载模型后,所有使用该模型的网站都可以调用它。
  • 自定义模型:您可以使用 Transformers.jsMediaPipe 等客户端库将模型集成到应用中。这意味着您可以控制模型权重。不过,这也意味着您网站的每位用户都必须下载您的自定义模型。即使是最小的 AI 模型,对于网站而言也是很大的

服务器端 AI

借助服务器端 AI,您的 Web 应用可以调用 API 将输入内容发送到 AI 模型并接收其输出内容。此设置支持更大、更复杂的模型,并且不受用户硬件的限制。

服务器端 AI 分为以下两类:

  • 托管式服务:这些模型由第三方托管在数据中心内,例如 Gemini 3 和 GPT-5。模型所有者会提供一个 API 来访问该模型。这意味着,您只需进行最少的设置即可使用最先进的模型。这些模型非常适合快速原型设计、开放式对话和通用推理。 不过,在托管式服务上进行扩缩可能成本高昂。
  • 自行托管的模型:您可以在自己的基础设施中或在受管理的容器(例如 Vertex AI 或 Hugging Face Inference)中部署开放权重模型,例如 Gemma 或 Llama。 这意味着您可以受益于模型创建者完成的预训练,但仍可控制模型、微调数据和性能。

选择初始平台

查看 AI 平台的架构特征并分析权衡取舍,以确定初始设置。

定义架构要求

每次做出决定时,您都必须做出妥协。不妨了解一下决定 AI 平台成本和价值的关键特征:

  • 模型能力:模型在各种用户和任务中的表现,无需调优。这通常与模型大小相关。
  • 可自定义程度:您可以对模型行为和架构进行微调、修改或控制的程度。
  • 准确率:模型预测或生成结果的总体质量和可靠性。
  • 隐私:用户数据保留在本地并受用户控制的程度。
  • 固定成本:无论使用情况如何,运行 AI 系统所需的周期性支出,包括基础设施预配和维护。
  • 每次请求的费用:每次传入请求的额外费用。
  • 兼容性:该方法在浏览器、设备和环境中的适用范围,是否需要回退逻辑。
  • 用户便利性:用户是否需要采取额外的步骤才能使用 AI 系统,例如下载模型。
  • 开发者便利性:对于大多数开发者而言,在没有专业 AI 知识的情况下,部署、集成和维护模型有多么快速和轻松。

下表提供了一个示例,其中估算了每个平台在各项标准方面的表现(1 为最低,5 为最高)。

标准 客户 设备
内置 AI 或设备端 自定义模型 代管式服务 自主托管模式
模型功率

为什么模型功率为 2 星?

内置 AI 和设备端 AI 使用预加载的小型浏览器模型,这些模型针对狭窄的特定任务功能进行了优化,而不是开放式对话或推理。

为什么模型功率为 3 星?

与内置 AI 相比,自定义客户端库的灵活性更高,但您仍会受到下载大小、内存限制和用户硬件的限制。

为什么模型功率为 4 星?

借助托管服务和自行托管,您可以访问大型先进模型,这些模型能够进行复杂的推理、处理长上下文,并涵盖广泛的任务。

可自定义性

为什么可自定义性评分为 1 星?

内置模型不允许访问模型权重或训练数据。自定义其行为的主要方式是通过提示工程

为什么可自定义性评分为 5 星?

此选项可让您控制模型选择和权重。许多客户端库还支持模型微调和训练。

为什么可自定义性评分为 1 星?

托管式服务可提供强大的模型,但对模型的内部行为的控制程度最低。自定义通常仅限于提示和输入上下文。

为什么可自定义性评分为 5 星?

自托管模型可让您完全控制模型权重、训练数据、微调和部署配置。

准确率

为什么准确度只有 2 星?

内置模型的准确率足以应对范围明确的任务,但模型大小和泛化能力有限,因此对于复杂或细致的输入,可靠性会降低。

为什么精确度为 3 星?

在模型选择过程中,可以提高自定义客户端模型的准确率。不过,它仍然会受到模型大小、量化和客户端硬件可变性的限制。

为什么精确度为 5 星?

托管服务通常具有相对较高的准确性,这得益于大型模型、广泛的训练数据和持续的提供商改进。

为什么准确度为 4 星?

准确度可能很高,但取决于所选模型和调整力度。性能可能不如托管式服务。

网络延迟

为什么网络延迟的评分为 5 星?

处理直接在用户设备上进行。

为什么网络延迟的评分为 2 星?

需要往返服务器。

隐私权

为什么隐私保护方面获得 5 星评价?

用户数据应默认保留在设备上,以最大限度减少数据泄露风险并简化隐私权合规工作。

为什么隐私保护方面的评分为 2 星?

用户输入必须发送到外部服务器,这会增加数据泄露风险并提高合规性要求。不过,有一些特定的解决方案可以缓解隐私权问题,例如 Private AI Compute

为什么隐私保护方面的星级为 3 星?

数据仍受组织控制,但会离开用户的设备,因此需要采取安全处理和合规性措施。

固定费用

为什么固定费用的星级为 5 星?

模型在用户现有设备上运行,因此无需支付额外基础设施费用。

为什么固定费用的星级为 5 星?

大多数 API 都是按用量收费,因此没有固定费用。

为什么固定费用的星级为 2 星?

固定成本包括基础设施、维护和运营开销。

每次请求费用

为什么“每次请求费用”指标的星级为 5 星?

由于推理在用户设备上运行,因此无需按请求付费。

为什么为“每次请求费用”评 2 星?

托管式服务通常按请求收费。扩缩费用可能会非常高,尤其是在流量非常大的情况下。

为什么“每次请求费用”的星级为 3 星?

没有直接的单次请求费用;实际单次请求费用取决于基础设施利用率。

兼容性

为什么兼容性评分为 2 星?

可用性因浏览器和设备而异,需要为不支持的环境提供回退。

为什么兼容性评分为 1 星?

兼容性取决于硬件功能和运行时支持,因此在不同设备上的覆盖范围有限。

为什么兼容性评分为 5 星?

服务器端平台广泛兼容,适合所有用户,因为推理是在服务器端进行的,客户端只使用 API。

用户便利性

为什么用户便利性为 3 星?

内置 AI 通常在可用后可无缝使用,但需要先下载模型并获得浏览器支持。

为什么用户便利性方面的评分为 2 星?

用户可能会因下载或硬件不受支持而遇到延迟。

为什么用户便利性为 4 星?

无需下载或满足设备要求,可立即使用,提供顺畅的用户体验。不过,如果网络连接较弱,可能会出现延迟。

开发者便利性

为什么开发者便利性为 5 星?

内置 AI 需要极少的设置、无需基础架构,并且对 AI 专业知识的要求不高,因此易于集成和维护。

为什么 2 星级便利性?

需要管理模型、运行时、性能优化和设备兼容性。

为什么开发者便利性方面的评分为 4 星?

托管式服务可简化部署和扩缩。不过,它们仍然需要 API 集成、费用管理和提示工程。

为什么开发者便利性评分为 1 星?

自定义服务器端部署需要具备基础设施、模型管理、监控和优化方面的专业知识。

维护工作量

为什么维护工作评分为 4 星?

浏览器会处理模型更新和优化,但开发者必须适应不断变化的可用性。

为什么维护工作量为 2 星?

随着浏览器和设备的发展,需要不断更新模型、调整性能和改进兼容性。

为何维护工作评分为 5 星?

维护由提供商负责。

为什么维护工作量为 2 星?

需要持续维护,包括模型更新、基础设施管理、扩缩和安全性。

分析利弊权衡

为了说明决策过程,我们将向中型电子商务平台 Example Shoppe 添加另一项功能。您希望节省非工作时间的客户服务成本,因此决定构建一个 AI 赋能的助理,用于回答用户关于订单、退货和产品的问题。

图 2. 在本模块中,我们将重点介绍 Example Shoppe 的 AI 系统蓝图中的智能和数据层。
您可以查看完整的 AI 系统蓝图,其中包含机遇和解决方案。

从两个角度分析该场景:用例要求和业务或团队限制。

要求 分析 标准 含义
高准确度和多功能性 用户会提出各种有关订单、商品和退货的复杂问题。 模型功率、准确率 需要大语言模型 (LLM)。
数据专业性 它需要回答与公司数据、产品和政策相关的问题。 可定制性 需要数据注入(例如 RAG),但不需要模型微调。
使用场景要求
要求 分析 标准 含义
用户群 数十万用户。 可伸缩性、兼容性 需要能够处理高流量且可靠的架构。
发布后重点 团队将在版本 1 发布后转到其他项目。 维护工作量 需要一种只需极少日常维护的解决方案。
团队专业水准 经验丰富的 Web 开发者,但 AI/机器学习专业知识有限 开发者便利性 解决方案必须易于部署和集成,无需具备专业的 AI 技能。
业务或团队限制

现在,您已经确定了条件的优先级,接下来可以参考权衡估计表,确定哪个平台符合您的最高优先级条件:

优先考虑的条件 平台胜出方
模型功率 服务器端
可定制性 服务器端:自托管模式
开发者便利性 服务器端:受管理的 服务
维护工作量 服务器端:代管式服务
兼容性和可伸缩性 服务器端

从上述细分中可以看出,您应该使用服务器端 AI,最好是托管服务。这为复杂的客户问题提供了一个多功能模型。 通过将基础架构、模型质量和正常运行时间分流给提供商,最大限度地减少维护和开发工作量。

虽然可自定义程度有限,但对于模型工程经验有限的 Web 开发团队来说,这是一个值得的权衡。

检索增强生成 (RAG) 设置有助于在推理时为模型提供相关背景信息。

混合 AI

成熟的 AI 系统很少在单一平台上运行或使用单一模型。而是通过分配 AI 工作负载来优化权衡。

发现混合 AI 的机会

发布后,您应根据实际数据和反馈意见来完善要求。在我们的示例“Example Shoppe”中,您等待了几个月来分析结果,并发现以下情况:

  • 大约 80% 的请求都是重复的(例如“我的订单在哪里?”、“我的订单在哪里?”、“我的订单在哪里?”)。“如何退货?”)。向代管式服务发送这些请求会产生大量开销和费用。
  • 只有 20% 的请求需要更深入的推理和开放式互动对话。

轻量级本地模型可以对用户输入进行分类,并回答常规查询,例如“你们的退货政策是什么?”您可以将复杂、罕见或模棱两可的问题路由到服务器端模型。

通过实现服务器端和客户端 AI,您可以降低成本和延迟时间,同时在需要时保持对强大推理功能的访问。

分配工作负载

若要为 Example Shoppe 构建此混合系统,您应先定义默认系统。在这种情况下,最好从客户端开始。在以下两种情况下,应用应路由到服务器端 AI:

  • 基于兼容性的回退:如果用户的设备或浏览器无法处理请求,则应回退到服务器
  • 基于能力的升级:如果请求对于客户端模型来说过于复杂或开放式,则应根据预先确定的标准将其升级到更大的服务器端模型。您可以使用模型将请求分类为常见(在客户端执行任务)或不常见(将请求发送到服务器端系统)。例如,如果客户端模型确定问题与不常见的问题相关,例如以其他币种获得退款。

灵活性会带来更多复杂性

在两个平台之间分配工作负载可提高灵活性,但也会增加复杂性:

  • 编排:两个执行环境意味着更多可移动的部件。您需要用于路由、重试和回退的逻辑。
  • 版本控制:如果您在多个平台中使用同一模型,则该模型必须在两个环境中保持兼容。
  • 提示工程上下文工程:如果您在每个平台上使用不同的模型,则需要针对每个模型执行提示工程。
  • 监控:日志和指标是分开的,需要额外的统一工作。
  • 安全性:您需要维护两个攻击面。本地端点和云端点都需要强化。

这是另一个需要权衡的因素,供您参考。如果您的小团队正在构建非必要功能,则可能不想增加这种复杂性。

要点总结

预计平台选择会不断变化。从用例入手,与团队的经验和资源保持一致,并随着产品和 AI 成熟度的提高而不断迭代。您的任务是为用户找到速度、隐私保护和控制之间的最佳平衡点,然后灵活地进行构建。这样一来,您就可以适应不断变化的需求,并受益于未来的平台和模型更新。

资源

检验您的掌握情况

为应用选择 AI 平台时,需要考虑的两个主要因素是什么?

您的编程语言和框架。
回答不正确。
模型费用和训练速度。
太棒了,回答正确!
模型运行的位置(在客户端还是服务器上)以及对模型的控制程度。
回答不正确。
开发团队的规模和营销预算。
回答不正确。

何时最好为平台选择 Gemini Pro 等服务器端托管服务?

您的团队拥有深厚的机器学习专业知识,并希望手动微调权重。
回答不正确。
当您需要快速构建原型来处理复杂的推理任务,而无需管理基础架构时。
太棒了,回答正确!
当用户未连接到互联网时。
回答不正确。
当您需要尽可能低的延迟时间来实现实时视频效果时。
回答不正确。

实现混合 AI 系统的主要优势是什么?

它允许您分配工作负载以优化权衡,例如在本地运行简单任务以提高速度,在服务器上运行复杂任务以节省电量。
太棒了,回答正确!
这样可确保您平等地支付客户端和服务器费用。
回答不正确。
它会强制用户每次访问网站时都下载大型模型。
回答不正确。
这样一来,您便无需在代码中添加任何回退逻辑。
回答不正确。