クライアントサイド AI のパフォーマンスと UX を改善

Maud Nalpas
Maud Nalpas

ウェブ上の AI 機能のほとんどはサーバーに依存していますが、クライアントサイド AI はユーザーのブラウザで直接実行されます。これにより、低レイテンシ、サーバーサイド費用の削減、API キーの不要、ユーザー プライバシーの強化、オフライン アクセスなどのメリットがもたらされます。TensorFlow.jsTransformers.jsMediaPipe GenAI などの JavaScript ライブラリを使用して、ブラウザ間で動作するクライアントサイド AI を実装できます。

クライアントサイド AI はパフォーマンスにも課題をもたらします。ユーザーはより多くのファイルをダウンロードする必要があり、ブラウザの負荷も増加します。うまく機能させるには、次のことを検討してください。

  • ユースケース。クライアントサイド AI は、機能に適していますか?機能はクリティカル ユーザー ジャーニーに含まれていますか?含まれている場合、代替手段はありますか?
  • モデルのダウンロードと使用に関するベスト プラクティス。詳細については、下記の説明をご覧ください。

モデルのダウンロード前

Mind ライブラリとモデルサイズ

クライアントサイド AI を実装するには、モデルと通常はライブラリが必要です。ライブラリを選択する際は、他のツールと同様にサイズを評価します。

モデルサイズも重要です。AI モデルで大規模と見なされるものには、さまざまなものがあります。5 MB は便利な経験則です。これは、中央値のウェブページサイズの 75 パーセンタイルでもあります。より緩い値は 10 MB です。

モデルサイズに関する重要な考慮事項は次のとおりです。

  • タスク固有の AI モデルの多くは非常に小さい場合があります。アジアの言語で正確な文字分割を行う BudouX などのモデルは、GZIP 圧縮でわずか 9.4 KB です。MediaPipe の言語検出モデルは 315 KB です。
  • ビジョンモデルでも適切なサイズに抑えることができますHandpose モデルと関連するすべてのリソースの合計サイズは 13.4 MB です。これは、ほとんどの圧縮済みフロントエンド パッケージよりもはるかに大きいものの、ウェブページの中央値である 2.2 MB(デスクトップでは 2.6 MB)と同程度です。
  • 生成 AI モデルは、ウェブリソースの推奨サイズを超える可能性があります。非常に小さな LLM または単純な NLP モデル(意見は分かれる)と見なされる DistilBERT の重量は 67 MB です。Gemma 2B などの小さな LLM でも 1.3 GB に達することがあります。これは、ウェブページの中央値の 100 倍を超えるサイズです。

使用するモデルの正確なダウンロード サイズは、ブラウザのデベロッパー ツールで確認できます。

Chrome DevTools の [ネットワーク] ペインで、MediaPipe 言語検出モデルのダウンロード サイズ。デモ
Chrome DevTools の [ネットワーク] パネルで、生成 AI モデルのダウンロード サイズを確認します。Gemma 2B(小型 LLM)、DistilBERT(小型 NLP / 非常に小型 LLM)。

モデルサイズを最適化する

  • モデルの品質とダウンロード サイズを比較する。小さいモデルは、ユースケースに十分な精度を持ちながら、はるかに小さい場合があります。十分な精度を維持しながらモデルのサイズを大幅に縮小するために、ファインチューニングとモデルの縮小手法があります。
  • 可能な場合は専用のモデルを選択します。特定のタスクに合わせて調整されたモデルは、サイズが小さくなる傾向があります。たとえば、感情分析や有害性分析などの特定のタスクを実行する場合は、汎用的な LLM ではなく、これらのタスクに特化したモデルを使用します。
j0rd1smit によるクライアントサイドの AI ベースの音声文字変換デモのモデル選択ツール。

これらのモデルはすべて同じタスクを実行しますが、精度は異なり、サイズは 3 MB ~ 1.5 GB と大きく異なります。

モデルを実行できるかどうかを確認する

すべてのデバイスで AI モデルを実行できるわけではありません。十分なハードウェア仕様を備えたデバイスでも、モデルの使用中に他の負荷の高いプロセスが実行されている場合や、開始されている場合は、問題が発生する可能性があります。

解決策が利用可能になるまでの間、以下の対応をおすすめします。

  • WebGPU のサポートを確認する。Transformers.js バージョン 3 や MediaPipe など、いくつかのクライアントサイド AI ライブラリは WebGPU を使用します。現時点では、これらのライブラリの一部は、WebGPU がサポートされていない場合に Wasm に自動的にフォールバックしません。クライアントサイド AI ライブラリに WebGPU が必要であることを確認している場合は、AI 関連のコードを WebGPU 機能検出チェック内に含めることで、この問題を軽減できます。
  • 電力不足のデバイスを除外するNavigator.hardwareConcurrencyNavigator.deviceMemoryCompute Pressure API を使用して、デバイスの機能と負荷を見積もります。これらの API はすべてのブラウザでサポートされているわけではなく、指紋認証を防ぐために意図的に不正確になっていますが、それでも処理能力が非常に低いと思われるデバイスを除外するのに役立ちます。

大規模なダウンロードを通知する

モデルが大きい場合は、ダウンロード前にユーザーに警告します。モバイル ユーザーよりも、パソコン ユーザーの方が大容量のダウンロードを許容する傾向があります。モバイル デバイスを検出するには、User-Agent Client Hints API の mobile を使用します(UA-CH がサポートされていない場合は、User-Agent 文字列を使用します)。

サイズの大きなダウンロードを制限する

  • 必要なものだけをダウンロードする。特にモデルが大きい場合は、AI 機能が使用されることが確実な場合にのみダウンロードしてください。たとえば、入力候補の AI 機能がある場合は、ユーザーが入力機能を使い始めたときにのみダウンロードします。
  • Cache API を使用してデバイスにモデルを明示的にキャッシュに保存し、アクセスするたびにダウンロードしないようにします。暗黙的な HTTP ブラウザ キャッシュにのみ依存しないでください。
  • モデルのダウンロードをチャンクに分割するfetch-in-chunks は、大きなダウンロードを小さなチャンクに分割します。

モデルのダウンロードと準備

ユーザーをブロックしない

スムーズなユーザー エクスペリエンスを優先する: AI モデルがまだ完全に読み込まれていない場合でも、主な機能を機能させます。

ユーザーが引き続き投稿できるようにします。
クライアントサイド AI 機能がまだ準備できていない場合でも、ユーザーはレビューを投稿できます。@maudnals によるデモ。

進行状況を示す

モデルのダウンロード中に、完了した進捗状況と残り時間が表示されます。

  • モデルのダウンロードがクライアントサイドの AI ライブラリによって処理される場合は、ダウンロードの進行状況を使用してユーザーに表示します。この機能が利用できない場合は、問題を報告してリクエストするか、コードを貢献してください。
  • 独自のコードでモデルのダウンロードを処理する場合は、fetch-in-chunks などのライブラリを使用してモデルをチャンクで取得し、ダウンロードの進行状況をユーザーに表示できます。
モデルのダウンロード プログレス ディスプレイ。チャンク取得を使用したカスタム実装。@tomayac によるデモ

ネットワークの中断を適切に処理する

モデルのダウンロード時間は、モデルのサイズによって異なります。ユーザーがオフラインになった場合にネットワークの中断を処理する方法を検討します。可能であれば、接続が切断されたことをユーザーに通知し、接続が復元されたらダウンロードを続行します。

接続が不安定な場合も、チャンクでダウンロードすることをおすすめします。

負荷の高いタスクをウェブワーカーにオフロードする

ダウンロード後のモデル準備ステップなど、負荷の高いタスクはメインスレッドをブロックし、ジッターが発生する可能性があります。これらのタスクをウェブワーカーに移行すると役立ちます。

ウェブワーカーに基づくデモと完全な実装を確認する:

Chrome DevTools のパフォーマンス トレース。
上: ウェブワーカーを使用。下部: ウェブワーカーなし。

推論中

モデルがダウンロードされ、準備ができたら、推論を実行できます。推論は計算コストが高くなる可能性があります。

推論をウェブワーカーに移動する

推論が WebGL、WebGPU、または WebNN を介して行われる場合、GPU に依存します。つまり、UI をブロックしない別のプロセスで実行されます。

ただし、CPU ベースの実装(WebGPU がサポートされていない場合は WebGPU のフォールバックとなる Wasm など)では、推論を Web Worker に移動しても、モデルの準備時と同様にページの応答性が維持されます。

AI 関連のコード(モデルの取得、モデルの準備、推論)をすべて同じ場所に配置すると、実装が簡単になる場合があります。したがって、GPU が使用されているかどうかにかかわらず、ウェブワーカーを選択できます。

エラーを処理する

モデルがデバイスで実行されることを確認しても、ユーザーが後でリソースを大量に消費する別のプロセスを開始する可能性があります。これを軽減するには:

  • 推論エラーを処理する。推論を try/catch ブロックで囲み、対応するランタイム エラーを処理します。
  • WebGPU エラーを処理します。予期しないエラーと GPUDevice.lost の両方のエラーが発生します。これは、デバイスの処理が遅いために GPU が実際にリセットされた場合に発生します。

推論ステータスを示す

推論に即時に感じるよりも時間がかかる場合は、モデルが思考中であることをユーザーに知らせます。アニメーションを使用して待ち時間を軽減し、アプリが意図したとおりに動作していることをユーザーに示します。

推論中のアニメーションの例。
@maudnals@argyleink によるデモ

推論をキャンセル可能にする

ユーザーがクエリをその場で絞り込むことができます。ユーザーが目にすることのないレスポンスを生成するためにシステムがリソースを浪費することはありません。