エージェントの概要

公開日: 2025 年 2 月 25 日

ウェブ デベロッパーは、クローラーなどのボットを含む人間と人間以外のユーザーを対象に、ウェブサイトの構築と最適化を行ってきました。AI エージェントは、最適化の恩恵を受ける最新のウェブユーザーです。

エージェントは、入力の受信、解釈、ユーザー(人間または別のエージェント)に代わってのアクションの計画と実行を行うシステムです。エージェントには、モデル、API、その他のツールなど、複数のコンポーネントがあります。

エージェントを定義する特性はいくつかあります。ウェブ開発のコンテキストでは、次の点を考慮する必要があります。

  • 自律型: エージェントは人間の直接的な介入なしで動作できます。
  • インタラクティブ: エージェントは他のエージェントや人間と会話できます。
  • リアクティブ: エージェントが環境を認識し、変化に対応します。
  • プロアクティブ: エージェントは、特定の目標を達成するために主体的に行動できます。

たとえば、Example Bookshop はオンライン書店です。ユーザーは、大規模言語モデル(LLM)とやり取りすることで、好きな本やその他の興味に基づいて新しい本の推薦情報を収集できます。エージェントは、おすすめの書籍のページにユーザーを誘導し、購入手続きを開始できます。書籍が在庫切れの場合は、エージェントがお客様を別のオンライン書店に誘導して、おすすめの書籍を購入していただくことができます。

エージェントはウェブの新しいユーザーであるため、ベスト プラクティスを採用するまでにしばらく時間があります。ただし、エージェントがすべてのユーザーをサポートするのに役立つベスト プラクティスの多くは、特にアクセシビリティの高いウェブサイトを構築するうえで役立ちます。

このドキュメントでは、エージェントがウェブユーザーとしてどのように動作するかと、エージェントを念頭に置いてウェブサイトを構築することを検討すべき理由について説明します。

エージェントがユーザーとして操作する方法

AI とウェブサイトに関する議論の多くは、LLM のトレーニング データのスクレイピングに使用されるクローラーに関するものです。トレーニング用のスクレイピング データは、Common Crawl などのオープン データセットに保存されることが多く、サイトがクローラーによって過負荷になるのを防ぐのに役立ちます。ただし、AI システムに遭遇する理由はトレーニングだけではありません。

AI システムは、特定のユーザー(人間またはエージェント)のリクエストに基づいて、特定のページをターゲットにしてスクレイピングできます。たとえば、ユーザーが NotebookLM にソースを提供すると、システムはコンテンツをスクレイピングして、要約やデータ集計などの関連タスクでユーザーをサポートします。

エージェントは同様のパターンに従い、ユーザーのリクエストに答えるためにユーザーに代わってページをクロールしますが、フローは線形ではない可能性があります。

エージェントはこれまで、自動化タスクや情報収集に使用されてきましたが、リンクやボタンのクリック、フィールドへの入力、ページのスクロールなど、ユーザーに代わってワークフローを完了できるようになりました。これには、お問い合わせフォームへの入力などの簡単なタスクもあれば、家族のフライトを予約するなどの複雑なタスクもあります。

これらの新しいタイプのエージェントは人間をサポートする役割を果たすため、同意を理解することが最も重要なスキルとなります。エージェントは、購入手続きや機密情報を含むフォームの送信などの重要なポイントで、確認を求める必要があります。

コンパニオンとしてのエージェント

エージェントは、ウェブサイトやウェブ アプリケーションでの複雑なタスクの完了を支援する、人間のユーザーのコンパニオンや代理人になることができます。大まかに言うと、エージェントのプロセスは常に同じです。

  1. クエリを受け取ります。
  2. クエリへの対応方法を処理して計画します。
  3. 計画を実行します。
  4. 学んだ教訓を記憶に留めておきます。

エージェントは、複数のオリジンにまたがるタスクのサポートに最適です。書籍の購入の場合、エージェントはオリジンでタスクを完了しながら、他の類似のオリジンもナビゲートしている可能性があります。エージェントがタスクを完了するのをサポートするサイトの質が高いほど、エージェントがオリジンでタスクを完了する可能性が高くなります。

ウェブ デベロッパーの仕事は、人間とエージェントが重要なタスクを効率的に完了できるように、ツールをサポートし、構築することです。ただし、ツールはエージェント インフラストラクチャの一部にすぎません。

エージェント インフラストラクチャ

人間がエージェントと協力する。各ピースはモデルに情報を送信して返します。
人間は、モデル、ルール、メモリ、ツールを含むエージェントと連携します。

エージェントは、複数の接続された部分を含むコンテナ化されたユニットです。

  • モデル: 大規模言語モデル(LLM)は、AI エージェントの基盤です。これらは、推論、知識ベース、言語の処理と生成の機能を提供します。
  • ルール: ペルソナ、指示、目標などのさまざまな制約により、エージェントはタスクを一貫して実行できます。
  • メモリ: 短期メモリと長期メモリは、エージェントがコンテキストを管理し、効率を高め、ユーザーにとって全般的にパフォーマンスを向上させるのに役立ちます。
  • ツール: エージェントが使用できるツールは、API、関数、データベース、さらには他のエージェントなど、多岐にわたります。たとえば、WebMCP は、ウェブサイトでの構造化されたインタラクションをサポートするための Chrome の早期プレビュー プログラムの提案です。

エージェントがウェブサイトをデータソースとして扱う場合や、ページと直接やり取りする場合は、視覚的または意味的に行うことができます。

  • 視覚的な操作: エージェントがレンダリングされたウェブページのスナップショットを撮ります。ビジョン モデルを使用してコンテンツを読み取り、インタラクティブな要素を特定します。
  • セマンティック インタラクション: エージェントが DOM を分析し、テキストを直接読み取ります。これは、自動化されたタスクを実行するエージェントで特に一般的です。

視覚的インタラクションとセマンティック インタラクションの両方で、エージェントは、デザインが優れていて、直感的に操作でき、コンテンツの階層が明確なサイトからメリットを得られます。

エージェントがデータへのアクセスを必要とする

エージェントを定義する方法の 1 つは、データとの関係で定義することです。エージェントとデータの所有者は同じですか、それとも異なりますか?この選択により、必要な認証レイヤとタスクの完了の難易度が決まります。

ファーストパーティ エージェント

ゼロパーティ エージェントは、ローカル データを使用してローカル コンテキストで動作するブラウザベースまたはオペレーティング システムベースのエージェントです。ブラウザやオペレーティング システムには、個人情報(PII)とみなされる可能性のあるユーザー設定が保存されているため、ゼロパーティ エージェントは、このデータを他のユーザーと共有するオペレーションを防止できます。

ファーストパーティ エージェント

ファーストパーティ エージェントとは、ツールと情報が同じパーティによって所有されている場合を指します。デベロッパーはツールを所有してサポートし、情報と構成へのアクセスを管理できます。

たとえば、トロントへの旅行を計画しているユーザーが、訪れる場所のリストを作成したいとします。Google マップが提供するエージェントは、一連の条件とデータを受け取り、ユーザーに代わってスポットのリストを生成し、地図上の各項目をマークできます。このエージェントは、地図データやログイン ユーザーが保存したその他の個人設定を所有する Google が提供しているため、ファーストパーティ エージェントと見なすことができます。

サードパーティ エージェント

サードパーティ エージェントは、外部のデベロッパーまたは組織によって作成され、外部サービスの機能とデータを提供します。たとえば、ウェブサイトでイベントベースの機能をサポートするために、サードパーティのカレンダー プロバイダが必要になる場合があります。これらのエージェントに WebMCP などのツールを提供したり、エージェントをワークフローに統合したりできます(プライバシー審査に合格している場合)。

サードパーティ エージェントは、拡張機能として構築された場合、同じマッピング タスクを完了できる可能性があります。

開発者は、特定のソースに依存してリストを作成するエージェントを構築できます。たとえば、地元の新聞から最高のレストランをキャプチャするなどです。このエージェントは、Google マップなどのリスト作成ツールへの読み取り / 書き込みアクセス権に加えて、地元新聞社のサイトへの読み取りアクセス権も必要になります。これには、複数の同意と権限のレイヤと、サイトを操作するための特定のツール(Playwright ツールなど)が必要です。

ウェブサイトやウェブ アプリケーションがエージェントへのサードパーティ情報プロバイダである可能性があります。この場合、エージェントと人間が一緒にタスクを完了できる権限構造を提供することをおすすめします。

要点

エージェントの仕組みを理解したら、ウェブサイトでエージェントをサポートする方法を検討します。

このシリーズでは、ウェブサイトやウェブ アプリケーションとエージェントのやり取りをサポートするための、実践的なベスト プラクティスを今後もご紹介していきます。