Google I/O にご参加いただきありがとうございました。オンデマンドでコンテンツを視聴できます。

このページは Cloud Translation API によって翻訳されました。

クライアントサイド AI のパフォーマンスと UX を改善

Maud Nalpas

ウェブ上の AI 機能のほとんどはサーバーに依存していますが、クライアントサイド AI はユーザーのブラウザで直接実行されます。これには、低レイテンシ、サーバーサイドコストの削減、API キー不要、ユーザープライバシーの強化、オフラインアクセスなど、多くのメリットがあります。TensorFlow.js、Transformers.js、MediaPipe GenAI などの JavaScript ライブラリを使用して、ブラウザ間で動作するクライアントサイド AI を実装できます。

クライアントサイド AI はパフォーマンスにも課題をもたらします。ユーザーはより多くのファイルをダウンロードする必要があり、ブラウザの負荷も増加します。うまく機能させるには、次のことを検討してください。

ユースケース。クライアントサイド AI は、機能に適していますか？機能はクリティカルユーザージャーニーに含まれていますか？含まれている場合、代替手段はありますか？
モデルのダウンロードと使用に関するベストプラクティス。詳細については、下記の説明をご覧ください。

モデルのダウンロード前

Mind ライブラリとモデルサイズ

クライアントサイド AI を実装するには、モデルと通常はライブラリが必要です。ライブラリを選択する際は、他のツールと同様にサイズを評価します。

モデルサイズも重要です。AI モデルで大規模と見なされるものには、さまざまなものがあります。5 MB は便利な経験則です。これは、平均ウェブページサイズの 75 パーセンタイルでもあります。より緩い値は 10 MB です。

モデルサイズに関する重要な考慮事項は次のとおりです。

タスク固有の AI モデルの多くは非常に小さい場合があります。アジアの言語で正確な文字分割を行う BudouX などのモデルは、GZIP 圧縮でわずか 9.4 KB です。MediaPipe の言語検出モデルは 315 KB です。
ビジョンモデルでも適切なサイズに抑えることができます。Handpose モデルと関連するすべてのリソースの合計サイズは 13.4 MB です。これは、ほとんどの圧縮済みフロントエンドパッケージよりもはるかに大きいですが、ウェブページの中央値である 2.2 MB（デスクトップでは 2.6 MB）と同程度です。
生成 AI モデルは、ウェブリソースの推奨サイズを超える可能性があります。非常に小さな LLM または単純な NLP モデル（意見は分かれる）と見なされる DistilBERT の重量は 67 MB です。Gemma 2B などの小規模な LLM でも、1.3 GB に達することがあります。これは、ウェブページの中央値の 100 倍を超えるサイズです。

使用するモデルの正確なダウンロードサイズは、ブラウザのデベロッパーツールで確認できます。

Chrome DevTools の [Network] パネルで、MediaPipe 言語検出モデルのダウンロードサイズ。デモ

Chrome DevTools の [ネットワーク] パネルで、生成 AI モデルのダウンロードサイズを確認します。Gemma 2B（小型 LLM）、DistilBERT（小型 NLP / 超小型 LLM）。

モデルサイズを最適化する

モデルの品質とダウンロードサイズを比較する。小さいモデルは、ユースケースに十分な精度を持ちながら、はるかに小さい場合があります。十分な精度を維持しながらモデルのサイズを大幅に縮小するために、ファインチューニングとモデルの縮小手法があります。
可能な場合は専用のモデルを選択します。特定のタスクに合わせて調整されたモデルは、小さい傾向があります。たとえば、感情分析や有害性分析などの特定のタスクを実行する場合は、汎用的な LLM ではなく、これらのタスクに特化したモデルを使用します。

j0rd1smit によるクライアントサイドの AI ベースの文字起こしデモのモデル選択ツール。

これらのモデルはすべて同じタスクを実行しますが、精度は異なり、サイズは 3 MB ～ 1.5 GB と幅広く異なります。

モデルを実行できるかどうかを確認する

すべてのデバイスで AI モデルを実行できるわけではありません。十分なハードウェア仕様を備えたデバイスでも、モデルの使用中に他の負荷の高いプロセスが実行されている場合や、開始されている場合は、問題が発生する可能性があります。

解決策が利用可能になるまでの間、以下の対応を行っていただけます。

WebGPU のサポートを確認する。Transformers.js バージョン 3 や MediaPipe など、いくつかのクライアントサイド AI ライブラリは WebGPU を使用します。現時点では、これらのライブラリの一部は、WebGPU がサポートされていない場合に Wasm に自動的にフォールバックしません。クライアントサイド AI ライブラリに WebGPU が必要であることをご存じの場合は、AI 関連のコードを WebGPU 機能検出チェック内に含めることで、この問題を軽減できます。
電力不足のデバイスを除外する。Navigator.hardwareConcurrency、Navigator.deviceMemory、Compute Pressure API を使用して、デバイスの機能と負荷を見積もります。これらの API はすべてのブラウザでサポートされているわけではなく、指紋認証を防ぐために意図的に不正確になっていますが、それでも処理能力が非常に低いと思われるデバイスを除外するのに役立ちます。

大規模なダウンロードを通知する

モデルが大きい場合は、ダウンロード前にユーザーに警告します。モバイルユーザーよりも、パソコンユーザーの方が大容量のダウンロードを許容する傾向があります。モバイルデバイスを検出するには、User-Agent Client Hints API の mobile を使用します（UA-CH がサポートされていない場合は、User-Agent 文字列を使用します）。

サイズの大きなダウンロードを制限する

必要なものだけをダウンロードする。特にモデルが大きい場合は、AI 機能が使用されることが確実な場合にのみダウンロードしてください。たとえば、入力候補の AI 機能がある場合は、ユーザーが入力機能を使い始めたときにのみダウンロードします。
Cache API を使用してデバイスにモデルを明示的にキャッシュに保存し、アクセスするたびにダウンロードしないようにします。暗黙的な HTTP ブラウザキャッシュにのみ依存しないでください。
モデルのダウンロードをチャンクに分割する。fetch-in-chunks は、大きなダウンロードを小さなチャンクに分割します。

モデルのダウンロードと準備

ユーザーをブロックしない

スムーズなユーザーエクスペリエンスを優先する: AI モデルがまだ完全に読み込まれていない場合でも、主要な機能が機能するようにします。

ユーザーが引き続き投稿できるようにします。 — クライアントサイド AI 機能がまだ準備できていない場合でも、ユーザーはレビューを投稿できます。@maudnals によるデモ。

進行状況を示す

モデルのダウンロード中に、完了した進捗状況と残り時間を表示します。

モデルのダウンロードがクライアントサイドの AI ライブラリによって処理される場合は、ダウンロードの進行状況を使用してユーザーに表示します。この機能が利用できない場合は、問題を報告してリクエストするか、コードを貢献することを検討してください。
独自のコードでモデルのダウンロードを処理する場合は、fetch-in-chunks などのライブラリを使用してモデルをチャンクで取得し、ダウンロードの進行状況をユーザーに表示できます。
- その他のおすすめの方法については、アニメーション化された進行状況インジケーターのベストプラクティスと長時間の待機と中断に対応した設計をご覧ください。

モデルのダウンロードの進行状況を表示します。チャンク取得を使用したカスタム実装。@tomayac によるデモ。

ネットワークの中断を適切に処理する

モデルのダウンロード時間は、モデルのサイズによって異なります。ユーザーがオフラインになった場合のネットワークの中断を処理する方法を検討します。可能であれば、接続が切断されたことをユーザーに通知し、接続が復元されたらダウンロードを続行します。

接続が不安定な場合も、チャンクでダウンロードすることをおすすめします。

負荷の高いタスクをウェブワーカーにオフロードする

ダウンロード後のモデル準備ステップなど、負荷の高いタスクはメインスレッドをブロックし、ジッターが発生する可能性があります。これらのタスクをウェブワーカーに移行すると役に立ちます。

ウェブワーカーに基づくデモと完全な実装については、以下をご覧ください。

Chrome DevTools のパフォーマンストレース。 — 上: ウェブワーカーを使用。下部: ウェブワーカーなし。

推論中

モデルがダウンロードされて準備ができたら、推論を実行できます。推論は計算コストが高くなる可能性があります。

推論をウェブワーカーに移動する

WebGL、WebGPU、または WebNN を介して推論が行われる場合、GPU が使用されます。つまり、UI をブロックしない別のプロセスで実行されます。

ただし、CPU ベースの実装（WebGPU がサポートされていない場合は WebGPU のフォールバックとなる Wasm など）では、推論を Web Worker に移動しても、モデルの準備時と同様にページの応答性が維持されます。

AI 関連のコード（モデルの取得、モデルの準備、推論）をすべて同じ場所に配置すると、実装が簡単になる場合があります。したがって、GPU が使用されているかどうかにかかわらず、ウェブワーカーを選択できます。

エラーを処理する

モデルがデバイスで実行されるように確認しても、ユーザーが後でリソースを大量に消費する別のプロセスを開始する可能性があります。これを軽減するには:

推論エラーを処理する。推論を try/catch ブロックで囲み、対応するランタイムエラーを処理します。
WebGPU エラーを処理します。予期しないエラーと GPUDevice.lost の両方のエラーが発生します。これは、デバイスの処理が遅いために GPU が実際にリセットされた場合に発生します。

推論ステータスを示す

推論に即時に感じるよりも時間がかかる場合は、モデルが思考中であることをユーザーに知らせます。アニメーションを使用して待ち時間を軽減し、アプリが意図したとおりに動作していることをユーザーに示します。

推論中のアニメーションの例。 — @maudnals と @argyleink によるデモ

推論をキャンセル可能にする

ユーザーがクエリをその場で絞り込むことができます。ユーザーが目にすることのないレスポンスを生成するためにシステムがリソースを浪費することはありません。