适得其所的 AI:有益于企业、用户和地球

发布时间:2025 年 11 月 10 日

使用 AI 构建网站和 Web 应用时,您可能先使用 大语言模型 (LLM)(例如 ChatGPT、Gemini 或 Claude)创建原型,然后将该实现部署到生产环境。LLM 是一种基础模型,属于非常庞大的预训练模型,需要大量资源,成本高昂,而且通常不是完成任务的最佳工具。与“一刀切”的基础模型相比,更小巧、本地化且针对特定任务的模型消耗的资源更少,并且通常能以更低的成本提供更好、更快的回答。

选择更好的模型意味着选择更可持续的方法,我们称之为适量 AI。适当规模的 AI 可实现:

  • 当模型在本地运行而不是往返于远程服务器时,用户延迟时间更短
  • 降低 API 费用,因为您无需为未使用的功能付费。
  • 离线访问客户端设备端模型,打造更可靠的体验。

虽然基础模型在一般推理和对话方面表现出色,但将其用于特定任务(例如文本分类或数据提取)就像使用一级方程式赛车去麦当劳一样。从技术上讲,这是可行的,但效率非常低(而且乘客会感到不适)。请根据实际需求调整实现。

可持续的 AI 实践与最佳用户体验并非相互竞争的优先事项。它们只是以不同的方式表达了相同的优先级。

评估 AI 对环境的影响的一种方法是:

  • 训练:初始模型训练需要大量资源。此优化和“学习”由模型提供方管理。
  • 推理:当您为训练好的模型提供新输入(提示)以生成输出(回答文本)时,即执行推理。与训练相比,推理使用的资源要少得多。

训练费用是固定费用,但推理费用会随用量而变化,因此模型选择是您可以控制的关键因素。您可以根据自己的使用场景和地球环境做出明智的选择,从而支持负责任的 AI 开发。

实现以用户为先的 AI

不要先构建模型,再考虑 AI,而是要先考虑用户,再考虑 AI。考虑一下 AI 可以执行哪些任务,从而让您的应用更易于使用,或减少用户的工作量或必须执行的上下文切换次数。

例如,假设您经营一家名为“Rewarding Eats”的企业,该企业会向在特定餐厅用餐的用户提供积分。您可以使用 AI 扫描收据图片,获取餐厅名称和总支出,而无需客户手动输入。此功能可能会改善应用的用户体验。

打造用户至上的 AI 时:

  1. 定义任务要求。AI 需要执行哪些任务? 是完全基于文字的,还是包含音频或视觉元素?
  2. 选择合适的模型。不同的模型在不同的任务中效率更高,并且通常占用空间更小。
  3. 了解部署限制。模型应放在哪里?数据将位于何处?用户能否获得可靠的连接?
  4. 通过渐进增强来实现,以获得最流畅、最安全的用户体验。

定义任务要求

您不应寻找“可使用 AI 的场景”或“可添加的 AI 功能”,而应问自己:“顺畅无阻的用户体验是什么样的?”根据公司规模,您应该与产品经理讨论此问题。

以我们的示例应用“Rewarding Eats”为例。首先要问的问题是:“我们需要 AI 来实现这个目标吗?”

基础模型可以在一些提示的帮助下,根据收据起草费用报告。 但有一种更高效的处理方式根本不需要大型模型。使用光学字符识别 (OCR) 技术解析图片中的文本,并将其传递给特定任务模型(例如文本分类模型),以从解析后的文本中识别商品和费用。此操作可在用户设备上完成,无需向服务器发送任何数据。

在大多数情况下,如果您认为自己需要基础模型,则可能需要将问题分解为单独的任务。

选择合适的模型

确定要完成的任务后,您可以选择合适的模型类型和模型来完成任务。虽然使用基础模型更简单,但小型模型可以更快、更经济高效地完成任务。了解任务后,您可以选择合适的特定于任务的小型模型来处理工作。

有许多不同类型的模型可供选择,因此请阅读有关选择模型的深入分析,以确定适合您项目的模型。

为模型选择合适的位置

虽然基础模型过于庞大,无法在最强大的桌面设备上运行,但较小的 LLM、小型语言模型 (SLM) 和特定任务模型可以在许多设备上运行。

不建议 不建议 建议
小型语言模型 (SLM) 建议 建议 建议
基础模型 不建议 不建议 建议

SLM 很方便,但并不常见。目前有数十亿部手机,但只有最新、更昂贵的型号能够运行本地 SLM。 这只占市场的一小部分。

您可以使用此矩阵来确定模型的最佳位置:

指标 客户端 / 本地 服务器端 / 远程
连接性 需要离线模式、网络不稳定、设施安全 始终在线的环境
数据位置 处理用户照片、文本输入内容、个人文件 使用服务器端文档、数据库
使用模式 高频通话(聊天翻译、实时分析) 偶尔执行复杂任务
带宽 移动用户、农村地区、大型文件输出 宽带不受限,回答简短
隐私权和安全 受监管的数据(医疗保健、金融),严格的合规性 标准业务数据,完善的安全基础架构
对电池的影响 桌面应用,对功耗要求不高的使用情形 电池电量有限的移动应用

客户端推理、渐进式增强和混合

借助 TensorFlow.jsTransformers.jsONNX.js 等库,您的应用可以使用用户数据执行客户端推理。您可以将模型转换为适当的格式,然后远程托管或直接嵌入到应用中。为了提供最佳用户体验,请将预加载模型、可下载模型和远程模型无缝结合,以便用户在不牺牲体验的情况下完成工作。

即使出于安全考虑(或出于大小方面的需求)而首选使用远程托管在云端的模型,但在连接中断时提供足够的本地模型也能带来灵活的体验。

最终,模型部署有三种方法。选择最符合您需求的方案。

  • 本地优先:应用有离线要求、使用频率高、数据敏感。
  • 远程优先:复杂推理、大型模型、使用频率低。
  • 混合方法:在使用 API 的同时下载小型模型,并在准备就绪时切换。

后续行动

技术通常在实施后才会发挥作用。开发者影响行业发展方向的最佳方式是:

  • 选择合适的工具。较小的模型消耗的资源更少,在提示工程的帮助下,通常可以达到与大型模型相当的性能。 它们缩短了延迟时间。
  • 需要推理和训练费用透明度。建议公司优先考虑披露这些数据的模型。
  • 将模型放置在数据附近,以减少往返服务器的费用。
  • 使用现有内容。如果设备上已有模型,则优先使用这些模型。

资源

如果您想深入了解这些主题,可以参考我撰写本文时使用的以下资源。它们非常值得一读。

模型性能和研究

实现和开发工具