公開日: 2025 年 11 月 10 日
AI を使用してウェブサイトやウェブアプリを構築する場合、ChatGPT、Gemini、Claude などの大規模言語モデル(LLM)でプロトタイプを作成し、その実装を本番環境にデプロイすることがあります。LLM は、リソースを大量に消費し、コストも高く、多くの場合、タスクに最適なツールではない、非常に大規模な事前トレーニング済みモデルである基盤モデルの一種です。小規模でローカルなタスク固有のモデルは、消費するリソースが少なく、多くの場合、「ワンサイズですべてに対応できる」基盤モデルよりも低コストで、より高速かつ高品質なレスポンスを提供します。
より優れたモデルを選択することは、より持続可能なアプローチを選択することであり、これを「適切なサイズの AI」と呼びます。適切なサイズの AI を導入すると、次の効果が得られます。

- モデルが遠隔地のサーバーにラウンド トリップするのではなく、ローカルで実行されるため、ユーザーのレイテンシが短縮されます。
- 未使用の機能の料金を支払う必要がないため、API の費用が削減されます。
- オフライン アプリ アクセスにより、クライアントサイドのオンデバイス モデルにアクセスして、より信頼性の高いエクスペリエンスを実現。
基盤モデルは一般的な推論や会話に優れていますが、特定のタスク(テキスト分類やデータ抽出など)に使用するのは、マクドナルドに行くのに F1 カーを使うようなものです。技術的には可能ですが、非常に効率が悪く(乗客にとっても快適ではありません)。代わりに、実装を実際のニーズに合わせます。
持続可能な AI の実践と最適なユーザー エクスペリエンスは、競合する優先事項ではありません。これらは同じ優先度を異なる方法で表現したものです。
AI の環境への影響を評価する方法の 1 つは次のとおりです。
- トレーニング: 最初のモデルのトレーニングにはかなりのリソースが必要です。この最適化と「学習」はモデル プロバイダによって管理されます。
- 推論: トレーニング済みモデルに新しい入力(プロンプト)を指定して、出力(レスポンス テキスト)を生成するときに推論を実行します。推論では、トレーニングと比較して使用するリソースが大幅に少なくなります。
トレーニングは固定費ですが、推論の費用は使用量に応じてスケーリングされるため、モデルの選択は制御可能な重要な要素になります。ユースケースと地球環境の両方にとって最適な選択を行い、責任ある AI 開発をサポートできます。
ユーザー ファーストの AI を実装する
モデル ファーストの AI ではなく、ユーザー ファーストの AI を構築します。AI が実行することでアプリの使いやすさが向上したり、ユーザーの作業負荷やコンテキストの切り替えの回数が減ったりするタスクを検討します。
たとえば、Rewarding Eats というビジネスを経営しており、特定のレストランで外食したユーザーにポイントを付与しているとします。AI を使用して、お客様に手動で入力していただくのではなく、領収書の画像をスキャンしてレストランの名前と合計金額を取得できます。この機能により、アプリケーションのユーザー エクスペリエンスが向上する可能性があります。
ユーザー ファーストの AI を構築する際は、次の点に注意してください。
- タスクの要件を定義します。AI にどのようなタスクを実行させる必要がありますか?テキストのみで構成されているか、音声や映像の要素が含まれているか。
- 適切なモデルを選択します。モデルによって、効率的なタスクが異なり、フットプリントが小さくなることもあります。
- デプロイの制約を理解する。モデルをどこに配置するのが適切ですか?データはどこに保存されますか?お客様は安定した接続を利用できますか?
- プログレッシブ エンハンスメントで実装して、最も高速で安全なユーザー エクスペリエンスを実現します。
タスクの要件を定義する
「AI を活用できる場所」や「追加する AI 機能」を探すのではなく、「摩擦のないエクスペリエンスとはどのようなものか」を自問自答する必要があります。会社の規模に応じて、プロダクト マネージャーと話し合う必要があります。
たとえば、Rewarding Eats というサンプルアプリを考えてみましょう。まず、「そのために AI が必要か?」という問いを立てます。

基盤モデルは、プロンプトを使用して領収書から費用をドラフトできます。ただし、この処理をより効率的に行うには、大規模なモデルは必要ありません。光学式文字認識(OCR)を使用して画像からテキストを解析し、テキスト分類モデルなどのタスク固有のモデルに渡して、解析されたテキストから項目と費用を特定します。これは、サーバーにデータを送信することなく、ユーザーのデバイスで行うことができます。
ほとんどの場合、基盤モデルが必要だと考えられる場合は、問題を個別のタスクに分割する必要があります。
適切なモデルを選択する
完了しようとしているタスクがわかったら、そのジョブに適したモデルタイプとモデルを選択できます。基盤モデルを使用する方が簡単ですが、小規模なモデルを使用すると、より迅速かつ低コストでジョブを完了できます。タスクを理解していれば、そのタスクを処理するのに適した小さなタスク固有のモデルを選択できます。
さまざまなモデルタイプとモデルが用意されています。モデルの選択に関する詳細を読んで、プロジェクトに適した選択肢を判断してください。
モデルに適したロケーションを選択する
基盤モデルは非常に大きいため、最も高性能なデスクトップでも実行できませんが、小規模な LLM、小規模言語モデル(SLM)、タスク固有のモデルは多くのデバイスで実行できます。
| 非推奨 | 非推奨 | 推奨 | |
| 小規模言語モデル(SLM) | 推奨 | 推奨 | 推奨 |
| 基盤モデル | 非推奨 | 非推奨 | 推奨 |
SLM は便利ですが、一般的ではありません。携帯電話は数十億台ありますが、ローカル SLM を実行できるのは最新の高価なモデルのみです。これは市場のほんの一部です。
次のマトリックスを使用して、モデルに最適なロケーションを決定します。
| 指標 | クライアントサイド / ローカル | サーバーサイド / リモート |
|---|---|---|
| 接続 | オフライン モードが必要、ネットワークが不安定、安全な施設 | 常時オンライン環境 |
| データのロケーション | ユーザーの写真、テキスト入力、個人ファイルを処理する | サーバーサイドのドキュメント、データベースの操作 |
| 使用パターン | 高頻度の呼び出し(チャットの翻訳、リアルタイム分析) | 複雑なタスクをたまに実行する |
| 帯域幅 | モバイル ユーザー、地方、大きなファイル出力 | 無制限のブロードバンド、小さなレスポンス |
| プライバシーとセキュリティ | 規制対象データ(医療、金融)、厳格なコンプライアンス | 標準的なビジネスデータ、確立されたセキュリティ インフラストラクチャ |
| バッテリーへの影響 | デスクトップ アプリ、電力許容度の高いユースケース | バッテリー残量が少ないモバイルアプリ |
クライアントサイドの推論、プログレッシブ エンハンスメント、ハイブリッド
TensorFlow.js、Transformers.js、ONNX.js などのライブラリを使用すると、アプリケーションでユーザーデータを使用してクライアントサイド推論を実行できます。モデルを適切な形式に変換し、リモートでホストするか、アプリに直接埋め込みます。最適なユーザー エクスペリエンスを実現するには、プリロードされたモデル、ダウンロード可能なモデル、リモートモデルをシームレスに組み合わせるのがおすすめです。これにより、ユーザーは妥協することなく作業を完了できます。
セキュリティ(またはサイズ要件)の観点からリモートのクラウドホスト モデルの使用が推奨される場合でも、接続が失われたときに十分なローカルモデルを利用できるようにすることで、柔軟なエクスペリエンスを実現できます。
最終的に、モデルのデプロイには 3 つのアプローチがあります。ニーズに最適なものを選択してください。
- ローカル ファースト: アプリにオフライン要件があり、使用頻度が高く、機密性の高いデータが含まれている。
- リモート優先: 複雑な推論、大規模なモデル、使用頻度が低い。
- ハイブリッド アプローチ: API を使用しながら小さなモデルをダウンロードし、準備ができたら切り替えます。
次のステップ
テクノロジーは実装に続くことがよくあります。デベロッパーがユーザー エクスペリエンスの向上と世界のより良い結果のために業界の方向性に影響を与える最善の方法は次のとおりです。
- 作業に適したツールを選択します。小規模モデルは消費するリソースが少なく、プロンプト エンジニアリングの助けを借りて、大規模モデルと同程度のパフォーマンスを発揮することがよくあります。レイテンシが短縮されています。
- 推論とトレーニングの費用の透明性を確保する。これらの数値を公開するモデルを優先するよう、会社に働きかけます。
- モデルをデータの近くに配置して、サーバーへのラウンド トリップの費用を削減します。
- すでに利用可能なものを使用する。デバイスにすでにモデルがある場合は、それらのモデルを優先します。
リソース
これらのトピックについて詳しく知りたい場合は、この記事の作成に使用した次のリソースをご覧ください。読み応えのある内容です。
モデルのパフォーマンスと研究
- 小規模言語モデルはエージェント AI の未来(NVIDIA の研究論文): SLM の機能に関する研究をサポート
- Mistral の環境影響監査: トレーニングと推論のコストの透明性
- Google の推論費用に関する調査: 環境への影響の測定
- 自然研究: AI と人間の環境への影響: AI と人間のタスク完了の比較分析
- AI の環境への影響に関するディスカッション: 環境に関する議論のコンテキスト
実装と開発のツール
- TensorFlow.js モデルの読み込み: クライアントサイドのモデルのデプロイ
- Transformers.js の例: ブラウザベースのモデル推論
- ONNX.js ランタイム: クロスプラットフォーム モデルのデプロイ
- Firebase ハイブリッド AI ガイド: ローカル モデルとリモート モデルの統合