検索の仕組み

検索エンジンの役割

検索エンジンは図書館員のデジタル版です。包括的なインデックスを使用して、クエリに適した情報を見つけることができます。検索の基本を理解しておくことで、ユーザーがコンテンツを見つけられるようになります。

クローラによるウェブのブラウジングの仕組み

クロールは、図書館の本を全部読むことに似ています。検索エンジンが検索結果を返すには、ウェブから可能な限り多くの情報を取得する必要があります。そのために、検索エンジンはクローラを使用します。クローラはサイト間を移動して、ブラウザのように動作するプログラムです。

書籍や文書が欠けたり破損したりしている場合、クローラはその書籍や書類を読むことができません。クローラーは、各 URL を取得してドキュメントの状態を判断します。ドキュメントがエラー ステータス コードを返す場合、クローラはそのコンテンツを使用できず、後で URL を再試行する場合があります。これにより、一般公開されているドキュメントのみがインデックスに取り込まれます。

リダイレクト ステータス コード(301 や 302 など)が見つかると、クローラは新しい URL へのリダイレクトをたどってそこで処理を続行します。成功のレスポンスを受け取ると、つまり、ユーザーがアクセスできるドキュメントが見つかったら、クロールが許可されているかどうかを確認して、コンテンツをダウンロードします。

このチェックでは、HTML と、その HTML に記述されているすべてのコンテンツ(画像、動画、JavaScript など)がチェックされます。また、リンク先 URL にアクセスできるよう、クローラーは HTML ドキュメントからリンクを抽出します。リンクをたどると、クローラーがウェブ上の新しいページを見つける仕組みです。

クローラはリンクやボタンを積極的にクリックするのではなく、URL をキューに送信して後でクロールします。新しい URL にアクセスするときに、Cookie、Service Worker、ローカル ストレージ(IndexedDB など)は使用できません。

インデックスの作成

ドキュメントを取得した後、クローラはコンテンツを検索エンジンに渡してインデックスに追加します。検索エンジンがコンテンツをレンダリングして分析し、内容を理解します。レンダリングとは、ブラウザが行うようにページを表示することを意味します(いくつかの制限があります)。

検索エンジンは、キーワード、タイトル、リンク、見出し、テキストなどを調べます。これらはシグナルと呼ばれ、ページのコンテンツとコンテキストを記述します。シグナルにより、検索エンジンは可能な限り最適なページで特定のクエリに答えることができます。

検索エンジンが異なる URL で同じコンテンツを見つける場合もあります。たとえば、「アップルパイ」のレシピは /recipes/apple-pie/recipes/1234 にあります。インデックスに登録してレシピを 2 回表示しないように、検索エンジンはメインの URL を決定し、同じコンテンツを示す代替 URL を破棄します。

最も有用な結果を提供する

検索エンジンは、クエリをインデックス内のキーワードと照合するだけでなく、有用な結果を提供するために、コンテキスト、言い換え、ユーザーの所在地などを考慮します。たとえば、「シリコンバレー」は地理的な地域やテレビ番組を指します。しかし、クエリが「silicon Valley cast」の場合、この領域に関する結果はあまり役に立ちません。

「パルプ フィクションの曲」のような間接的なクエリもあり、検索エンジンはそれを解釈して映画の音楽の検索結果を表示する必要があります。ユーザーが何かを検索すると、検索エンジンは最も有用な結果を判断して、その結果をユーザーに表示します。ランキング(並べ替え)は、クエリに基づいて行われます。より適切な情報が利用可能になったときに、順序が変わることがよくあります。

次のステップ: 検索エンジン向けに最適化する方法

検索エンジンの仕組みの基本を理解したところで、検索エンジン向けに最適化することの価値をご理解いただけたと思います。これを SEO(検索エンジン最適化) と呼びます検索エンジンがコンテンツを検出して自動的に理解できるようにすることで、関連する検索でサイトが見つかりやすくなります。これにより、関心を持ったユーザーのサイトへのアクセスが増える可能性があります。 Lighthouse を使用してサイトを監査し、SEO の結果をチェックし、検索エンジンがコンテンツをどの程度認識できているかを確認します。