検索の仕組み

検索エンジンとは

検索エンジンとは、図書館員のデジタル版です。包括的なインデックスを使用して、クエリに対する適切な情報を見つけることができます。検索の基本を理解することで、ユーザーがコンテンツを検出可能にするための準備が整います。

クローラーによるウェブ ブラウジングの仕組み

クロールは図書館の本を読むようなものです。検索エンジンが検索結果を表示するには、ウェブからできるだけ多くの情報を取得する必要があります。そのために、検索エンジンはクローラーを使用します。クローラーは、サイト間を移動してブラウザのように動作するプログラムです。

書籍や文書が欠落しているか破損している場合、クローラはそれを読むことができません。クローラは各 URL を取得してドキュメントの状態を判断します。ドキュメントがエラー ステータス コードを返した場合、クローラはそのコンテンツをまったく使用できず、後で URL を再試行する可能性があります。これにより、一般公開されているドキュメントのみがインデックスに登録されます。

クローラーがリダイレクトのステータス コード(301 や 302 など)を検出すると、リダイレクトをたどって新しい URL に移動し、そのままリダイレクトします。レスポンスが成功したら(ユーザーがアクセスできるドキュメントが見つかった場合)、クロールが許可されているかどうかを確認してコンテンツをダウンロードします。

このチェックでは、HTML と、その HTML に記述されているすべてのコンテンツ(画像、動画、JavaScript など)がチェックされます。また、クローラーは HTML ドキュメントからリンクを抽出し、クローラーがリンク先 URL にアクセスできるようにします。クローラがウェブ上の新しいページを検出する仕組みを 提供します

クローラーは、リンクやボタンを積極的にクリックするのではなく、後でクロールするために URL をキューに送信します。新しい URL にアクセスするとき、Cookie、Service Worker、ローカル ストレージ(IndexedDB など)は使用できません。

インデックスの作成

クローラはドキュメントを取得すると、コンテンツを検索エンジンに渡してインデックスに追加します。これで、検索エンジンがコンテンツをレンダリングして分析し、コンテンツを理解します。レンダリングとは、ブラウザと同じようにページを表示することです(いくつかの制限があります)。

検索エンジンは、キーワード、タイトル、リンク、見出し、テキストなど、さまざまな情報を確認します。これらは「シグナル」と呼ばれ、ページのコンテンツとコンテキストを表します。シグナルにより、検索エンジンは可能な限り最適なページでクエリに応答できます。

複数の URL で同じコンテンツが検索されることもあります。たとえば、「アップルパイ」のレシピが /recipes/apple-pie/recipes/1234 にある場合、レシピがインデックス登録されて 2 回表示されないよう、検索エンジンはメイン URL を決定し、同じコンテンツを示す代替 URL を破棄します。

最も有用な結果を提供する

検索エンジンは、クエリをインデックス内のキーワードと照合する以上の作業を行います。有用な結果を提供するために、ユーザーはコンテキスト、別の言い回し、ユーザーの所在地などを考慮します。たとえば、「シリコンバレー」は地域やテレビ番組を指す場合があります。しかし、クエリが「silicon Valley cast」の場合、このリージョンの結果はあまり役に立ちません。

「パルプ フィクションの曲」のように間接的なクエリもあり、検索エンジンはそれを解釈して映画の音楽の検索結果を表示する必要があります。ユーザーが何かを検索すると、検索エンジンは最も有用な結果を判断して、ユーザーに表示します。ランキング(順序)は、クエリに基づいて行われます。より適切な情報が利用可能になると、多くの場合、順序は時間の経過とともに変化する可能性があります。

次のステップ: 検索エンジン向けに最適化する方法

検索エンジンの仕組みの基本を理解できたところで、検索エンジン最適化のメリットを実感しました。いわゆる SEO(検索エンジン最適化)です検索エンジンがコンテンツを検出して自動的に理解できるようにすることで、関連する検索でのサイトの視認性が向上します。これにより、サイトに関心を持ったユーザーがアクセスする可能性が高まります。 Lighthouse を使用してサイトを監査し、SEO の結果をチェックして、検索エンジンがコンテンツをどの程度ユーザーに認識してもらうことができるかを確認します。