Google I/O にご参加いただきありがとうございました。オンデマンドでコンテンツを視聴できます。

このページは Cloud Translation API によって翻訳されました。

AI とは

Alexandra Klepper

公開日: 2024 年 2 月 17 日、最終更新日: 2025 年 4 月 22 日

人工知能（AI）には、かつては人間の入力が必要だった複雑な新興技術が数多く含まれており、現在ではコンピュータで実行できるようになっています。一般的に、AI は、幅広い問題解決能力と創造性を示す人間以外のプログラム、モデル、コンピュータです。コンピュータで高度な機能（これまで情報を理解して推奨するために使用されていた機能）を実行できるようになりました。生成 AI を使用すると、コンピュータで新しいコンテンツを生成することもできます。

AI という頭字語は、人工知能の分野のさまざまな種類のテクノロジーを表すために同じ意味で使用されることがよくありますが、AI の機能は大きく異なる場合があります。

ここでは、ウェブ上で AI を実際に使用する際の用語やコンセプトをいくつか紹介します。機械学習の詳細については、機械学習の用語集をご覧ください。

AI の仕組みについて教えて。

モデルを構築する最初の手順は、データの収集、クリーニング、整理です。次に、モデルのトレーニング エンジニアである ML エンジニアが、モデルに特定の入力を与えて最適な出力を示すアルゴリズムを構築します。

一般的に、ウェブデベロッパーはモデルのトレーニングを行う必要はありませんが、特定のモデルがどのようにトレーニングされたかを理解しておくと役立つ場合があります。モデルをファインチューニングすることは可能ですが、タスクに最適なモデルを選択する方が効率的です。

推論とは、モデルが新しいデータに基づいて結論を導き出すプロセスです。モデルが特定の分野でトレーニングを重ねるほど、推論によって有用で正確な出力が生成される可能性が高くなります。ただし、モデルのトレーニングをどれだけ行っても、完璧な推論が保証されるわけではありません。

たとえば、Green Light は、Google マップのデータでトレーニングされた AI モデルを使用して、交通パターンを把握します。データが受信されるたびに推論が実行され、信号を最適化するための推奨事項が提供されます。

AI はどこで実行されますか？

モデルがリリースされる前に、AI トレーニングが完了します。追加のトレーニングが行われ、機能や精度が向上した新しいバージョンのモデルが作成されることがあります。

ウェブデベロッパーは、AI 推論がどこで実行されるかを考慮する必要があります。AI の使用コストは、推論に大きく影響されます。単一モデルの能力の範囲も大きく影響を受けます。

クライアントサイド AI

ウェブ上のほとんどの AI 機能はサーバーに依存していますが、クライアントサイド AI はユーザーのブラウザで実行され、ユーザーのデバイスで推論を行います。これにより、レイテンシの短縮、サーバーサイドのコスト削減、API キーの要件の削除、ユーザーのプライバシーの強化、オフラインアクセスが可能になります。Transformers.js、TensorFlow.js、MediaPipe などの JavaScript ライブラリを使用して、ブラウザ間で動作するクライアントサイド AI を実装できます。

特にパフォーマンス向けに最適化されている場合、最適化された小さなクライアントサイドモデルが、より大きなサーバーサイドモデルよりも優れたパフォーマンスを発揮することがあります。ユースケースを評価して、最適なソリューションを判断します。

サーバーサイド AI

サーバーサイド AI には、クラウドベースの AI サービスが含まれます。クラウドで実行されている Gemini 1.5 Pro を考えてみましょう。これらのモデルは、通常、はるかに大きく、強力です。これは特に大規模言語モデルに当てはまります。

ハイブリッド AI

ハイブリッド AI とは、クライアントコンポーネントとサーバーコンポーネントの両方を含むソリューションを指します。たとえば、クライアントサイドモデルを使用してタスクを実行し、デバイスでタスクを完了できない場合はサーバーサイドモデルにフォールバックできます。

機械学習（ML）

ML とは、明示的なプログラミングなしでコンピュータが学習してタスクを実行するプロセスです。AI はインテリジェンスの生成を目指しますが、ML はデータセットの予測を行うアルゴリズムで構成されています。

たとえば、特定の日付の天気を評価するウェブサイトを作成するとします。従来、これは 1 人以上の気象学者が行い、地球の大気と地表の表現を作成し、気象パターンを計算して予測し、現在のデータを過去のコンテキストと比較して評価を決定していました。

代わりに、ML モデルに大量の気象データを入力し、モデルが気象パターン、過去のデータ、特定の日の天候の良し悪しに関するガイドラインの間の数学的関係を学習するまで繰り返します。実際、ウェブ上に構築されています。

モデルタイプ

基盤モデルは、幅広いタスクを実行するために大規模な事前トレーニングを受けるコンピュータプログラムまたはアルゴリズムです。これにより、モデルが明示的にトレーニングされていないタスクを完了できる創発的な能力が生まれます。

これらのモデルは、タスクベースの特定のツールではなく、汎用的なツールです。すべての大規模言語モデル（LLM）は基盤モデルですが、すべての基盤モデルが LLM であるわけではありません。

大規模言語モデル（LLM）には、テキストや画像の生成、分類、要約など、さまざまなタスクの実行に使用できる多数（数十億単位）のパラメータがあります。パラメータは、モデルのトレーニングから得られた重みとバイアスであり、モデルのパフォーマンスを決定します。

小規模言語モデル（SLM）は、その名のとおり、LLM よりも規模が小さいモデルです。パラメータの数は、数千億ではなく、数百万から数十億の範囲になります。この用語はあまり一般的ではありませんが、LLM と対比して使用されることがあります。

生成 AI と大規模言語モデル

生成 AI は、大規模言語モデルを使用してデータを整理し、提供されたコンテキストに基づいてテキスト、画像、動画、音声を作成または変更します。パターンマッチングや予測を超えて、ユーザーが親しみやすく、人間が作成したかのようなコンテンツを作成するのに役立ちます。

chatbot は、次のような生成 AI を利用するための非常に一般的なツールになっています。

Google の Gemini
OpenAI の ChatGPT
Anthropic の Claude
Copilot（Microsoft）
その他多数。

これらのツールは、文章、コードサンプル、アートワークを作成できます。休暇の計画、メールのトーンの調整、さまざまな情報のカテゴリへの分類などに役立ちます。

デベロッパーとデベロッパー以外のお客様向けのユースケースは無数にあります。

ディープラーニング

ディープラーニング（DL）は、ML アルゴリズムの一種です。たとえば、人間の脳が情報を処理する方法をモデル化しようとするディープニューラルネットワーク（DNN）があります。

ディープラーニングアルゴリズムは、画像内の特定の特徴を特定のラベルまたはカテゴリに関連付けるようにトレーニングできます。トレーニングが完了すると、アルゴリズムは新しい画像で同じカテゴリを識別する予測を行うことができます。たとえば、Google フォトでは写真に写っている猫と犬の違いを識別できます。

自然言語処理（NLP）

自然言語処理は、特定の言語のルールから、個人が使用する特異性、方言、スラングまで、コンピュータが人間の言語を理解できるようにすることに重点を置いた ML のクラスです。

AI の課題

AI の構築と使用には、いくつかの課題があります。以下に、考慮すべき事項の概要をいくつか示します。

データ品質と最新性

さまざまな AI モデルのトレーニングに使用される大規模なデータセットは、使用後すぐに古くなることがよくあります。つまり、最新の情報を探す場合は、プロンプトエンジニアリングを活用して、特定のタスクにおける AI モデルのパフォーマンスを高め、より優れた出力を生成するとよいでしょう。

データセットが不完全であるか、一部のユースケースを効果的にサポートするには小さすぎる可能性があります。複数のツールを試したり、ニーズに合わせてモデルをカスタマイズしたりすると効果的な場合があります。

倫理とバイアスに関する懸念

AI テクノロジーはエキサイティングで、多くの可能性を秘めています。しかし、最終的にコンピュータとアルゴリズムは人間によって構築され、人間が収集した可能性のあるデータでトレーニングされるため、いくつかの課題があります。たとえば、モデルが人間のバイアスや有害なステレオタイプを学習して増幅させ、出力に直接影響を与える可能性があります。AI テクノロジーの構築に取り組む際は、バイアスの軽減を優先することが重要です。

AI 生成コンテンツの著作権については、倫理的な考慮事項が数多くあります。特に、著作権で保護された素材から大きな影響を受けている場合や、直接コピーされている場合、出力の所有者は誰になるのでしょうか？

新しいコンテンツやアイデアを生成する前に、作成した素材の使用方法に関する既存のポリシーを確認してください。

セキュリティとプライバシー

多くのウェブデベロッパーが、AI ツールを使用するうえでプライバシーとセキュリティが最も懸念されると述べています。これは、政府や医療機関など、データの要件が厳しいビジネスコンテキストで特に当てはまります。クラウド API を使用してユーザーデータをより多くのサードパーティに公開することは懸念事項です。データ送信の安全性を確保し、継続的にモニタリングすることが重要です。

クライアントサイド AI は、これらのユースケースに対応するための鍵となる可能性があります。研究開発はまだ始まったばかりです。

ウェブで AI を使ってみる

さまざまな種類の AI について理解できたので、既存のモデルを使用して生産性を高め、より優れたウェブサイトやウェブアプリケーションを構築する方法を検討してみましょう。

AI を使用して次のことができます。

サイトの検索の予測入力機能を改善します。
スマートカメラで、人やペットなどの一般的な物体の存在を検出する
自然言語モデルを使用してコメントスパムに対処します。
コードの自動補完を有効にして、生産性を向上させます。
次の単語や文の候補を表示して、WYSIWYG の文章作成エクスペリエンスを作成します。
データセットのわかりやすい説明を提供します。

事前トレーニング済みの AI モデルは、最も一般的な AI ツールを支える数理モデルの構築方法や複雑なデータセットの収集方法を完全に理解していなくても、ウェブサイト、ウェブアプリ、生産性を向上させる優れた方法です。

ほとんどのモデルは、調整しなくてもすぐにニーズを満たすことができます。チューニングとは、大規模なデータセットですでにトレーニングされたモデルを取得し、特定のユースケースのニーズを満たすようにさらにトレーニングするプロセスです。モデルをチューニングする手法は多数あります。

人間からのフィードバックを用いた強化学習（RLHF）は、人間からのフィードバックを使用して、人間の好みや意図に対するモデルの適合性を改善する手法です。
Low-Rank Adaption（LoRA）は、モデルのパフォーマンスを維持しながら、トレーニング可能なパラメータの数を減らす LLM のパラメータ効率の高い手法です。