感谢您关注 Google I/O 大会！观看点播内容。

此页面由 Cloud Translation API 翻译。

适得其所的 AI：有益于企业、用户和地球

Rachel Lee Nabors

发布时间：2025 年 11 月 10 日

使用 AI 构建网站和 Web 应用时，您可能先使用大语言模型 (LLM)（例如 ChatGPT、Gemini 或 Claude）创建原型，然后将该实现部署到生产环境。LLM 是一种基础模型，属于非常庞大的预训练模型，需要大量资源，成本高昂，而且通常不是完成任务的最佳工具。与“一刀切”的基础模型相比，更小巧、本地化且针对特定任务的模型消耗的资源更少，并且通常能以更低的成本提供更好、更快的回答。

选择更好的模型意味着选择更可持续的方法，我们称之为适量 AI。适当规模的 AI 可实现：

当模型在本地运行而不是往返于远程服务器时，用户延迟时间更短。
降低 API 费用，因为您无需为未使用的功能付费。
离线访问客户端设备端模型，打造更可靠的体验。

虽然基础模型在一般推理和对话方面表现出色，但将其用于特定任务（例如文本分类或数据提取）就像使用一级方程式赛车去麦当劳一样。从技术上讲，这是可行的，但效率非常低（而且乘客会感到不适）。请根据实际需求调整实现。

可持续的 AI 实践与最佳用户体验并非相互竞争的优先事项。它们只是以不同的方式表达了相同的优先级。

评估 AI 对环境的影响的一种方法是：

训练：初始模型训练需要大量资源。此优化和“学习”由模型提供方管理。
推理：当您为训练好的模型提供新输入（提示）以生成输出（回答文本）时，即执行推理。与训练相比，推理使用的资源要少得多。

训练费用是固定费用，但推理费用会随用量而变化，因此模型选择是您可以控制的关键因素。您可以根据自己的使用场景和地球环境做出明智的选择，从而支持负责任的 AI 开发。

实现以用户为先的 AI

不要先构建模型，再考虑 AI，而是要先考虑用户，再考虑 AI。考虑一下 AI 可以执行哪些任务，从而让您的应用更易于使用，或减少用户的工作量或必须执行的上下文切换次数。

例如，假设您经营一家名为“Rewarding Eats”的企业，该企业会向在特定餐厅用餐的用户提供积分。您可以使用 AI 扫描收据图片，获取餐厅名称和总支出，而无需客户手动输入。此功能可能会改善应用的用户体验。

打造用户至上的 AI 时：

定义任务要求。AI 需要执行哪些任务？是完全基于文字的，还是包含音频或视觉元素？
选择合适的模型。不同的模型在不同的任务中效率更高，并且通常占用空间更小。
了解部署限制。模型应放在哪里？数据将位于何处？用户能否获得可靠的连接？
通过渐进增强来实现，以获得最流畅、最安全的用户体验。

定义任务要求

您不应寻找“可使用 AI 的场景”或“可添加的 AI 功能”，而应问自己：“顺畅无阻的用户体验是什么样的？”根据公司规模，您应该与产品经理讨论此问题。

以我们的示例应用“Rewarding Eats”为例。首先要问的问题是：“我们需要 AI 来实现这个目标吗？”

基础模型可以在一些提示的帮助下，根据收据起草费用报告。但有一种更高效的处理方式根本不需要大型模型。使用光学字符识别 (OCR) 技术解析图片中的文本，并将其传递给特定任务模型（例如文本分类模型），以从解析后的文本中识别商品和费用。此操作可在用户设备上完成，无需向服务器发送任何数据。

在大多数情况下，如果您认为自己需要基础模型，则可能需要将问题分解为单独的任务。

选择合适的模型

确定要完成的任务后，您可以选择合适的模型类型和模型来完成任务。虽然使用基础模型更简单，但小型模型可以更快、更经济高效地完成任务。了解任务后，您可以选择合适的特定于任务的小型模型来处理工作。

有许多不同类型的模型可供选择，因此请阅读有关选择模型的深入分析，以确定适合您项目的模型。

为模型选择合适的位置

虽然基础模型过于庞大，无法在最强大的桌面设备上运行，但较小的 LLM、小型语言模型 (SLM) 和特定任务模型可以在许多设备上运行。

模型类型	已在设备上（客户端）	下载到设备	服务器托管模型
针对特定任务的模型	不建议	不建议	建议
小型语言模型 (SLM)	建议	建议	建议
基础模型	不建议	不建议	建议

SLM 很方便，但并不常见。目前有数十亿部手机，但只有最新、更昂贵的型号能够运行本地 SLM。这只占市场的一小部分。

您可以使用此矩阵来确定模型的最佳位置：

指标	客户端 / 本地	服务器端 / 远程
连接性	需要离线模式、网络不稳定、设施安全	始终在线的环境
数据位置	处理用户照片、文本输入内容、个人文件	使用服务器端文档、数据库
使用模式	高频通话（聊天翻译、实时分析）	偶尔执行复杂任务
带宽	移动用户、农村地区、大型文件输出	宽带不受限，回答简短
隐私权和安全	受监管的数据（医疗保健、金融），严格的合规性	标准业务数据，完善的安全基础架构
对电池的影响	桌面应用，对功耗要求不高的使用情形	电池电量有限的移动应用

客户端推理、渐进式增强和混合

借助 TensorFlow.js、Transformers.js 和 ONNX.js 等库，您的应用可以使用用户数据执行客户端推理。您可以将模型转换为适当的格式，然后远程托管或直接嵌入到应用中。为了提供最佳用户体验，请将预加载模型、可下载模型和远程模型无缝结合，以便用户在不牺牲体验的情况下完成工作。

即使出于安全考虑（或出于大小方面的需求）而首选使用远程托管在云端的模型，但在连接中断时提供足够的本地模型也能带来灵活的体验。

最终，模型部署有三种方法。选择最符合您需求的方案。

本地优先：应用有离线要求、使用频率高、数据敏感。
远程优先：复杂推理、大型模型、使用频率低。
混合方法：在使用 API 的同时下载小型模型，并在准备就绪时切换。

后续行动

技术通常在实施后才会发挥作用。开发者影响行业发展方向的最佳方式是：

选择合适的工具。较小的模型消耗的资源更少，在提示工程的帮助下，通常可以达到与大型模型相当的性能。它们缩短了延迟时间。
需要推理和训练费用透明度。建议公司优先考虑披露这些数据的模型。
将模型放置在数据附近，以减少往返服务器的费用。
使用现有内容。如果设备上已有模型，则优先使用这些模型。

资源

如果您想深入了解这些主题，可以参考我撰写本文时使用的以下资源。它们非常值得一读。

模型性能和研究

小语言模型是 Agentic AI 的未来（NVIDIA 研究论文）：支持有关 SLM 功能的研究
Mistral 的环境影响审核：训练和推理成本透明度
Google 的推理成本研究：环境影响衡量
《Nature》研究：AI 与人类的环境影响：对 AI 和人类任务完成情况的比较分析
AI 环境影响讨论：环境论述背景

实现和开发工具

TensorFlow.js 模型加载：客户端模型部署
Transformers.js 示例：基于浏览器的模型推理
ONNX.js 运行时：跨平台模型部署
Firebase 混合 AI 指南：本地和远程模型集成