发布时间:2025 年 11 月 10 日
使用 AI 构建网站和 Web 应用时,您可能先使用 大语言模型 (LLM)(例如 ChatGPT、Gemini 或 Claude)创建原型,然后将该实现部署到生产环境。LLM 是一种基础模型,属于非常庞大的预训练模型,需要大量资源,成本高昂,而且通常不是完成任务的最佳工具。与“一刀切”的基础模型相比,更小巧、本地化且针对特定任务的模型消耗的资源更少,并且通常能以更低的成本提供更好、更快的回答。
选择更好的模型意味着选择更可持续的方法,我们称之为适量 AI。适当规模的 AI 可实现:

- 当模型在本地运行而不是往返于远程服务器时,用户延迟时间更短。
- 降低 API 费用,因为您无需为未使用的功能付费。
- 离线访问客户端设备端模型,打造更可靠的体验。
虽然基础模型在一般推理和对话方面表现出色,但将其用于特定任务(例如文本分类或数据提取)就像使用一级方程式赛车去麦当劳一样。从技术上讲,这是可行的,但效率非常低(而且乘客会感到不适)。请根据实际需求调整实现。
可持续的 AI 实践与最佳用户体验并非相互竞争的优先事项。它们只是以不同的方式表达了相同的优先级。
评估 AI 对环境的影响的一种方法是:
- 训练:初始模型训练需要大量资源。此优化和“学习”由模型提供方管理。
- 推理:当您为训练好的模型提供新输入(提示)以生成输出(回答文本)时,即执行推理。与训练相比,推理使用的资源要少得多。
训练费用是固定费用,但推理费用会随用量而变化,因此模型选择是您可以控制的关键因素。您可以根据自己的使用场景和地球环境做出明智的选择,从而支持负责任的 AI 开发。
实现以用户为先的 AI
不要先构建模型,再考虑 AI,而是要先考虑用户,再考虑 AI。考虑一下 AI 可以执行哪些任务,从而让您的应用更易于使用,或减少用户的工作量或必须执行的上下文切换次数。
例如,假设您经营一家名为“Rewarding Eats”的企业,该企业会向在特定餐厅用餐的用户提供积分。您可以使用 AI 扫描收据图片,获取餐厅名称和总支出,而无需客户手动输入。此功能可能会改善应用的用户体验。
打造用户至上的 AI 时:
- 定义任务要求。AI 需要执行哪些任务? 是完全基于文字的,还是包含音频或视觉元素?
- 选择合适的模型。不同的模型在不同的任务中效率更高,并且通常占用空间更小。
- 了解部署限制。模型应放在哪里?数据将位于何处?用户能否获得可靠的连接?
- 通过渐进增强来实现,以获得最流畅、最安全的用户体验。
定义任务要求
您不应寻找“可使用 AI 的场景”或“可添加的 AI 功能”,而应问自己:“顺畅无阻的用户体验是什么样的?”根据公司规模,您应该与产品经理讨论此问题。
以我们的示例应用“Rewarding Eats”为例。首先要问的问题是:“我们需要 AI 来实现这个目标吗?”

基础模型可以在一些提示的帮助下,根据收据起草费用报告。 但有一种更高效的处理方式根本不需要大型模型。使用光学字符识别 (OCR) 技术解析图片中的文本,并将其传递给特定任务模型(例如文本分类模型),以从解析后的文本中识别商品和费用。此操作可在用户设备上完成,无需向服务器发送任何数据。
在大多数情况下,如果您认为自己需要基础模型,则可能需要将问题分解为单独的任务。
选择合适的模型
确定要完成的任务后,您可以选择合适的模型类型和模型来完成任务。虽然使用基础模型更简单,但小型模型可以更快、更经济高效地完成任务。了解任务后,您可以选择合适的特定于任务的小型模型来处理工作。
有许多不同类型的模型可供选择,因此请阅读有关选择模型的深入分析,以确定适合您项目的模型。
为模型选择合适的位置
虽然基础模型过于庞大,无法在最强大的桌面设备上运行,但较小的 LLM、小型语言模型 (SLM) 和特定任务模型可以在许多设备上运行。
| 不建议 | 不建议 | 建议 | |
| 小型语言模型 (SLM) | 建议 | 建议 | 建议 |
| 基础模型 | 不建议 | 不建议 | 建议 |
SLM 很方便,但并不常见。目前有数十亿部手机,但只有最新、更昂贵的型号能够运行本地 SLM。 这只占市场的一小部分。
您可以使用此矩阵来确定模型的最佳位置:
| 指标 | 客户端 / 本地 | 服务器端 / 远程 |
|---|---|---|
| 连接性 | 需要离线模式、网络不稳定、设施安全 | 始终在线的环境 |
| 数据位置 | 处理用户照片、文本输入内容、个人文件 | 使用服务器端文档、数据库 |
| 使用模式 | 高频通话(聊天翻译、实时分析) | 偶尔执行复杂任务 |
| 带宽 | 移动用户、农村地区、大型文件输出 | 宽带不受限,回答简短 |
| 隐私权和安全 | 受监管的数据(医疗保健、金融),严格的合规性 | 标准业务数据,完善的安全基础架构 |
| 对电池的影响 | 桌面应用,对功耗要求不高的使用情形 | 电池电量有限的移动应用 |
客户端推理、渐进式增强和混合
借助 TensorFlow.js、Transformers.js 和 ONNX.js 等库,您的应用可以使用用户数据执行客户端推理。您可以将模型转换为适当的格式,然后远程托管或直接嵌入到应用中。为了提供最佳用户体验,请将预加载模型、可下载模型和远程模型无缝结合,以便用户在不牺牲体验的情况下完成工作。
即使出于安全考虑(或出于大小方面的需求)而首选使用远程托管在云端的模型,但在连接中断时提供足够的本地模型也能带来灵活的体验。
最终,模型部署有三种方法。选择最符合您需求的方案。
- 本地优先:应用有离线要求、使用频率高、数据敏感。
- 远程优先:复杂推理、大型模型、使用频率低。
- 混合方法:在使用 API 的同时下载小型模型,并在准备就绪时切换。
后续行动
技术通常在实施后才会发挥作用。开发者影响行业发展方向的最佳方式是:
- 选择合适的工具。较小的模型消耗的资源更少,在提示工程的帮助下,通常可以达到与大型模型相当的性能。 它们缩短了延迟时间。
- 需要推理和训练费用透明度。建议公司优先考虑披露这些数据的模型。
- 将模型放置在数据附近,以减少往返服务器的费用。
- 使用现有内容。如果设备上已有模型,则优先使用这些模型。
资源
如果您想深入了解这些主题,可以参考我撰写本文时使用的以下资源。它们非常值得一读。
模型性能和研究
- 小语言模型是 Agentic AI 的未来(NVIDIA 研究论文):支持有关 SLM 功能的研究
- Mistral 的环境影响审核:训练和推理成本透明度
- Google 的推理成本研究:环境影响衡量
- 《Nature》研究:AI 与人类的环境影响:对 AI 和人类任务完成情况的比较分析
- AI 环境影响讨论:环境论述背景
实现和开发工具
- TensorFlow.js 模型加载:客户端模型部署
- Transformers.js 示例: 基于浏览器的模型推理
- ONNX.js 运行时:跨平台模型部署
- Firebase 混合 AI 指南:本地和远程模型集成