検索の仕組み

検索エンジンの役割

検索エンジンは、図書館員のデジタル版です。包括的なインデックスを使用して、クエリに適した情報を検索します。検索の基本を理解することで、ユーザーがコンテンツを見つけやすくすることができます。

クローラがウェブをブラウジングする仕組み

クロールとは、図書館にあるすべての書籍を読むようなものです。検索エンジンが検索結果を表示するには、ウェブからできるだけ多くの情報を収集する必要があります。検索エンジンは、クローラー(サイト間を移動し、ブラウザのように動作するプログラム)を使用して、この作業を行います。

書籍やドキュメントが見つからない場合や破損している場合は、クローラーが読み取ることができません。クローラーは各 URL を取得してドキュメントの状態を判断しようとします。ドキュメントがエラー ステータス コードを返した場合、クローラーはそのコンテンツを一切使用できず、後で URL を再試行することがあります。これにより、一般公開されているドキュメントのみがインデックスに登録されます。

クローラーは、リダイレクト ステータス コード(301 や 302 など)を見つけると、リダイレクト先の新しい URL に移動してそこで処理を続行します。正常なレスポンスが返されたら(つまり、ユーザーがアクセスできるドキュメントが見つかった場合)、クロール可能かどうかを確認し、コンテンツをダウンロードします。

このチェックには、HTML と、HTML で言及されているすべてのコンテンツ(画像、動画、JavaScript など)が含まれます。クローラは HTML ドキュメントからリンクを抽出し、リンク先の URL にもアクセスできるようにします。クロールツールは、リンクをたどることでウェブ上の新しいページを見つけます。

クローラーはリンクやボタンを積極的にクリックするのではなく、URL をキューに送信して後でクロールします。新しい URL にアクセスする場合、Cookie、サービス ワーカー、ローカル ストレージ(IndexedDB など)は使用できません。

インデックスの作成

ドキュメントを取得した後、クローラーはコンテンツを検索エンジンに渡してインデックスに追加します。検索エンジンは、コンテンツをレンダリングして分析し、理解します。レンダリングとは、ブラウザのようにページを表示することを意味します(一部の制限あり)。

検索エンジンは、キーワード、タイトル、リンク、見出し、テキストなど、さまざまな要素を参照します。これらはシグナルと呼ばれ、ページのコンテンツとコンテキストを表します。シグナルにより、検索エンジンは任意のクエリに対して最適なページで回答できます。

検索エンジンは、同じコンテンツを異なる URL で検出することがあります。たとえば、「アップルパイ」のレシピは /recipes/apple-pie/recipes/1234 の両方に存在する場合があります。レシピがインデックスに登録され、2 回表示されないようにするため、検索エンジンはメインの URL を決定し、同じコンテンツを表示する代替 URL を破棄します。

最も有用な検索結果を提供する

検索エンジンは、クエリをインデックス内のキーワードと照合するだけでなく、有用な結果を提供するために、コンテキスト、代替の文言、ユーザーの現在地などを考慮する場合があります。たとえば、「シリコンバレー」は地理的な地域を指す場合もあれば、テレビ番組を指す場合もあります。ただし、クエリが「シリコンバレー キャスト」の場合、地域に関する結果はあまり役に立ちません。

検索語句の中には、「パルプ フィクションの曲」のように間接的な語句もあります。検索エンジンは、そのような語句を解釈して、映画の音楽に関する結果を表示する必要があります。ユーザーが何かを検索すると、検索エンジンは最も有用な結果を特定し、ユーザーに表示します。ページのランキング(順序付け)は、クエリに基づいて行われます。より正確な情報が入手されると、順序が変更されることがあります。

次のステップ: 検索エンジン向けに最適化する方法

検索エンジンの仕組みの基本を理解したところで、検索エンジン向けに最適化するメリットについて説明します。これを SEO(検索エンジン最適化)と呼びます。検索エンジンがコンテンツを見つけて自動的に理解できるようにすることで、関連する検索でサイトの露出を高めることができます。これにより、サイトに関心を持ち、訪れるユーザーを増やすことにつながります。Lighthouse でサイトを監査し、SEO の結果を確認して、検索エンジンがユーザーにコンテンツを認識させる効果を確認します。