이 페이지는 Cloud Translation API를 통해 번역되었습니다.

검색의 원리

Lizzi Harvey

검색엔진은 무엇을 하나요?

검색엔진은 사서의 디지털 버전입니다. 포괄적인 색인을 사용하여 쿼리에 적합한 정보를 찾습니다. 검색의 기본사항을 이해하면 사용자가 내 콘텐츠를 검색할 수 있도록 준비할 수 있습니다.

크롤러가 웹을 탐색하는 방법

크롤링은 도서관의 모든 책을 읽는 것과 같습니다. 검색엔진이 검색 결과를 가져오려면 먼저 웹에서 최대한 많은 정보를 가져와야 합니다. 이를 위해 검색엔진은 사이트에서 사이트로 이동하고 브라우저처럼 작동하는 프로그램인 크롤러를 사용합니다.

도서 또는 문서가 누락되거나 손상된 경우 크롤러가 이를 읽을 수 없습니다. 크롤러는 각 URL을 가져와 문서의 상태를 확인하려고 시도합니다. 문서가 오류 상태 코드를 반환하면 크롤러는 콘텐츠를 사용할 수 없으며 나중에 URL을 다시 시도할 수 있습니다. 이렇게 하면 공개적으로 액세스할 수 있는 문서만 색인에 포함됩니다.

크롤러가 리디렉션 상태 코드 (예: 301 또는 302)를 발견하면 리디렉션을 따라 새 URL로 이동한 후 계속 진행합니다. 사용자가 액세스할 수 있는 문서를 찾았다는 의미의 성공적인 응답을 받으면 크롤링이 허용되는지 확인한 후 콘텐츠를 다운로드합니다.

이 검사에는 HTML과 HTML에 언급된 모든 콘텐츠(예: 이미지, 동영상, JavaScript)가 포함됩니다. 크롤러는 연결된 URL도 방문할 수 있도록 HTML 문서에서 링크를 추출합니다. 크롤러는 링크를 따라 웹에서 새 페이지를 찾습니다.

크롤러는 링크나 버튼을 직접 클릭하지 않고 대신 나중에 크롤링할 URL을 대기열에 전송합니다. 새 URL에 액세스할 때는 쿠키, 서비스 워커 또는 로컬 저장소 (예: IndexedDB)를 사용할 수 없습니다.

색인 빌드

크롤러는 문서를 검색한 후 검색엔진에 콘텐츠를 전달하여 색인에 추가합니다. 이제 검색엔진이 콘텐츠를 렌더링하고 분석하여 이해합니다. 렌더링이란 브라우저에서 페이지를 표시하는 것과 동일하게 표시하는 것을 의미합니다(일부 제한사항이 있음).

검색엔진은 키워드, 제목, 링크, 제목, 텍스트 등을 고려합니다. 이를 신호라고 하며 페이지의 콘텐츠와 컨텍스트를 설명합니다. 신호를 통해 검색엔진은 주어진 검색어에 가장 적합한 페이지로 답변할 수 있습니다.

검색엔진은 서로 다른 URL에서 동일한 콘텐츠를 찾을 수 있습니다. 예를 들어 '사과 파이' 레시피가 /recipes/apple-pie 아래와 /recipes/1234 아래에 있을 수 있습니다. 레시피가 색인 생성되고 두 번 표시되지 않도록 하려면 검색엔진에서 기본 URL을 결정하고 동일한 콘텐츠를 표시하는 대체 URL을 삭제합니다.

가장 유용한 결과 게재

검색엔진은 색인의 키워드와 검색어를 일치시키는 것 이상의 작업을 수행합니다. 유용한 결과를 제공하기 위해 문맥, 대체 문구, 사용자의 위치 등을 고려할 수 있습니다. 예를 들어 '실리콘밸리'는 지리적 지역 또는 TV 프로그램을 의미할 수 있습니다. 하지만 쿼리가 '실리콘밸리 출연자'인 경우 지역 관련 결과는 그다지 유용하지 않습니다.

'펄프 픽션의 노래'와 같이 간접적인 검색어도 있을 수 있으며 검색엔진은 이를 해석하여 영화의 음악에 대한 결과를 표시해야 합니다. 사용자가 검색하면 검색엔진은 가장 유용한 검색 결과를 결정한 후 사용자에게 표시합니다. 페이지의 순위 또는 정렬은 검색어를 기반으로 합니다. 더 나은 정보가 제공되면 순서가 변경되는 경우가 많습니다.

다음 단계: 검색엔진에 맞게 최적화하는 방법

이제 검색엔진의 작동 방식에 관한 기본사항을 이해했으므로 검색엔진 최적화의 가치를 알 수 있습니다. 이를 SEO('검색엔진 최적화')라고 합니다. 검색엔진이 콘텐츠를 찾아 자동으로 이해할 수 있도록 하면 관련 검색어에 대한 사이트의 가시성을 개선할 수 있습니다. 이를 통해 관심을 가진 사용자가 더 많이 사이트를 방문하게 할 수 있습니다. Lighthouse로 사이트를 감사하고 SEO 결과를 확인하여 검색엔진이 사용자에게 내 콘텐츠를 얼마나 효과적으로 알릴 수 있는지 확인합니다.