검색의 원리

검색엔진은 사서의 디지털 버전입니다. 포괄적인 색인을 사용하여 쿼리에 대한 올바른 정보를 찾을 수 있습니다. 검색의 기본사항을 이해하면 사용자가 콘텐츠를 검색 가능하게 만들 수 있습니다.

크롤링은 도서관의 모든 책을 읽는 것과 같습니다. 검색엔진이 검색결과를 가져오려면 먼저 웹에서 최대한 많은 정보를 제공해야 합니다. 이를 위해 검색엔진은 크롤러를 사용합니다. 크롤러는 사이트 사이를 이동하며 브라우저처럼 작동하는 프로그램입니다.

책이나 문서가 누락되거나 손상된 경우 크롤러는 읽을 수 없습니다. 크롤러는 각 URL을 가져와서 문서의 상태를 확인합니다. 문서에서 오류 상태 코드를 반환하면 크롤러는 문서의 콘텐츠를 사용할 수 없으며 나중에 URL을 다시 시도할 수 있습니다. 이렇게 하면 공개적으로 액세스 가능한 문서만 색인에 포함됩니다.

크롤러가 리디렉션 상태 코드 (예: 301 또는 302)를 발견하면 리디렉션을 따라 새 URL로 이동합니다. 성공적 응답을 받으면, 즉 사용자가 액세스할 수 있는 문서를 찾으면 해당 문서가 크롤링될 수 있는지 확인한 후 콘텐츠를 다운로드합니다.

이 검사에는 HTML과 HTML에서 언급된 모든 콘텐츠(예: 이미지, 동영상, JavaScript)가 포함됩니다. 크롤러는 또한 크롤러가 링크된 URL을 방문할 수 있도록 HTML 문서에서 링크를 추출합니다. 크롤러는 다음 링크를 통해 웹에서 새 페이지를 찾습니다.

크롤러는 링크나 버튼을 적극적으로 클릭하지 않고 나중에 크롤링할 수 있도록 URL을 대기열로 보냅니다. 새 URL에 액세스할 때 쿠키, 서비스 워커 또는 로컬 저장소 (예: IndexedDB)를 사용할 수 없습니다.

색인 빌드

크롤러는 문서를 검색한 후 검색엔진에 콘텐츠를 전달하여 색인에 추가합니다. 이제 검색엔진이 콘텐츠를 렌더링하고 분석하여 이해합니다. 렌더링이란 브라우저와 동일하게 페이지를 표시하는 것을 의미합니다(일부 제한사항).

검색엔진은 키워드, 제목, 링크, 제목, 텍스트 등의 여러 요소를 확인합니다. 이러한 신호를 신호라고 하며, 이는 페이지의 콘텐츠와 컨텍스트를 설명합니다. 신호를 사용하면 검색엔진이 특정 검색어에 가장 적합한 페이지로 답변할 수 있습니다.

검색엔진이 서로 다른 URL에서 동일한 콘텐츠를 찾을 수도 있습니다. 예를 들어 '애플파이'의 레시피는 /recipes/apple-pie 아래 및 /recipes/1234 아래에 있을 수 있습니다. 색인 생성과 레시피가 두 번 표시되지 않도록 검색엔진은 기본 URL을 결정하고 동일한 콘텐츠를 표시하는 대체 URL을 삭제합니다.

가장 유용한 검색 결과 제공

검색엔진은 쿼리를 색인의 키워드와 일치시키는 것 이상의 역할을 합니다. 유용한 결과를 제공하기 위해 맥락, 대체 표현, 사용자의 위치 등을 고려할 수 있습니다. 예를 들어 '실리콘 밸리'는 지역이나 TV 프로그램을 의미할 수 있습니다. 하지만 쿼리가 '실리콘 밸리 캐스트'인 경우 이 리전의 결과는 그다지 유용하지 않습니다.

'펄프 픽션의 노래'와 같이 간접적인 검색어도 있을 수 있으며, 검색엔진은 이를 해석하여 영화 속 음악에 대한 검색결과를 표시해야 합니다. 사용자가 무언가를 검색하면 검색엔진은 가장 유용한 결과를 결정하여 사용자에게 표시합니다. 페이지의 순위, 즉 순서는 검색어에 따라 결정됩니다. 더 나은 정보를 사용할 수 있게 되면 시간이 지남에 따라 순서가 변경될 수 있습니다.

다음 단계: 검색엔진에 맞게 최적화하는 방법

이제 검색엔진의 작동 방식에 관한 기본사항을 이해했으므로 검색엔진에 맞게 최적화하는 것이 얼마나 중요한지 알 수 있습니다. 이를 검색엔진 최적화 또는 '검색엔진 최적화'라고 합니다 검색엔진이 내 콘텐츠를 찾아서 자동으로 이해할 수 있도록 하면 관련 검색에 대한 사이트의 가시성을 높일 수 있습니다. 관심 있는 사용자가 사이트를 더 많이 방문하도록 유도할 수 있습니다. Lighthouse로 사이트를 감사하고 검색엔진 최적화 결과를 확인하여 검색엔진이 사용자에게 콘텐츠를 얼마나 잘 알릴 수 있는지 확인하세요.