검색의 원리

검색엔진은 어떤 역할을 하나요?

검색엔진은 사서의 디지털 버전입니다. 종합적인 색인을 사용하여 쿼리에 적합한 정보를 찾습니다. 검색의 기본사항을 이해하면 사용자가 내 콘텐츠를 검색할 수 있도록 준비할 수 있습니다.

크롤러가 웹을 탐색하는 방식

크롤링은 도서관에 있는 모든 책을 읽는 것과 같습니다. 검색엔진이 검색결과를 가져오려면 최대한 많은 웹 정보를 확보해야 합니다. 이를 위해 검색엔진은 사이트 간에 이동하고 브라우저처럼 작동하는 프로그램인 크롤러를 사용합니다.

책이나 문서가 누락되거나 손상된 경우 크롤러는 읽을 수 없습니다. 크롤러는 각 URL을 가져와 문서의 상태를 확인합니다. 문서에서 오류 상태 코드를 반환하면 크롤러는 문서의 콘텐츠를 사용할 수 없으며 나중에 URL을 다시 시도할 수 있습니다. 이렇게 하면 공개적으로 액세스할 수 있는 문서만 색인에 포함될 수 있습니다.

크롤러가 리디렉션 상태 코드 (예: 301 또는 302)를 발견하면 리디렉션을 따라 새 URL로 이동한 후 계속 진행합니다. 사용자가 액세스할 수 있는 문서를 찾았음을 의미하는 성공적인 응답을 받으면 크롤링이 허용되는지 확인하고 콘텐츠를 다운로드합니다.

이 검사에는 HTML과 HTML에 언급된 모든 콘텐츠(예: 이미지, 동영상 또는 자바스크립트)가 포함됩니다. 또한 크롤러는 HTML 문서에서 링크를 추출하여 크롤러가 링크된 URL을 방문할 수 있도록 합니다. 다음 링크를 통해 크롤러는 웹에서 새 페이지를 찾습니다.

크롤러는 링크나 버튼을 직접 클릭하지 않고 나중에 크롤링하기 위해 URL을 대기열로 보냅니다. 새 URL에 액세스할 때 쿠키, 서비스 워커, 로컬 스토리지 (예: IndexedDB)를 사용할 수 없습니다.

색인 빌드

크롤러는 문서를 검색한 후 콘텐츠를 검색엔진에 전달하여 색인에 추가합니다. 이제 검색엔진이 콘텐츠를 렌더링하고 분석하여 이해합니다. 렌더링이란 페이지를 브라우저처럼 표시하는 것을 의미합니다(일부 제한사항 있음).

검색엔진은 키워드, 제목, 링크, 제목, 텍스트 등을 확인합니다. 이를 신호라고 하며 페이지의 콘텐츠와 컨텍스트를 설명합니다. 신호를 사용하면 검색엔진에서 특정 검색어에 가장 적합한 페이지로 답변할 수 있습니다.

검색엔진이 서로 다른 URL에서 동일한 콘텐츠를 찾을 수도 있습니다. 예를 들어 '애플파이'의 레시피는 /recipes/apple-pie/recipes/1234 아래에 있을 수 있습니다. 색인을 생성하고 레시피가 두 번 표시되지 않도록 검색엔진은 기본 URL을 결정하고 동일한 콘텐츠를 표시하는 대체 URL을 삭제합니다.

가장 유용한 결과 제공

검색엔진은 단순히 검색어를 색인의 키워드와 일치시키는 것 이상의 작업을 수행합니다. 유용한 결과를 제공하기 위해 컨텍스트, 대체 문구, 사용자 위치 등을 고려할 수 있습니다. 예를 들어 '실리콘 밸리'는 지리적 지역 또는 TV 프로그램을 의미할 수 있습니다. 하지만 쿼리가 '실리콘 밸리 캐스트'인 경우 리전의 결과가 그다지 유용하지 않습니다.

예를 들어 '펄프 픽션에 나오는 노래'와 같은 간접 검색어는 검색 엔진에서 이를 해석하여 영화에 나오는 음악에 대한 검색 결과를 보여줘야 합니다. 사용자가 무언가를 검색하면 검색엔진이 가장 유용한 결과를 파악하여 사용자에게 표시합니다. 페이지의 순위 또는 순서는 검색어에 따라 결정됩니다. 시간이 지나면서 더 나은 정보를 사용할 수 있게 되면 순서가 변경되는 경우가 많습니다.

다음 단계: 검색엔진에 맞게 최적화하는 방법

이제 검색엔진의 작동 방식에 대한 기본 사항을 이해했으므로 검색엔진에 맞게 최적화하는 것이 얼마나 중요한지 아실 것입니다. 이를 '검색엔진 최적화' 또는 '검색엔진 최적화'라고 합니다 검색엔진이 내 콘텐츠를 찾고 자동으로 파악할 수 있게 하면 관련 검색에서 사이트의 검색 가능성을 높일 수 있습니다. 관심 있는 사용자가 사이트를 더 많이 방문하도록 유도할 수 있습니다. Lighthouse로 사이트를 감사하고 검색엔진 최적화 결과를 확인하여 검색엔진이 사용자에게 콘텐츠를 얼마나 잘 알리는지 확인하세요.