Cách hoạt động của Google Tìm kiếm

Các công cụ tìm kiếm là phiên bản kỹ thuật số của thủ thư. Chúng sử dụng một chỉ mục toàn diện để giúp tìm đúng thông tin cho truy vấn. Việc hiểu rõ những khái niệm cơ bản về tính năng tìm kiếm sẽ giúp bạn chuẩn bị để người dùng dễ dàng tìm thấy nội dung của bạn.

Cách trình thu thập dữ liệu duyệt web

Việc thu thập dữ liệu giống như đọc tất cả sách trong thư viện. Trước khi các công cụ tìm kiếm có thể cung cấp bất kỳ kết quả tìm kiếm nào, chúng cần có càng nhiều thông tin từ web càng tốt. Để thực hiện điều này, các công cụ tìm kiếm sử dụng trình thu thập dữ liệu – một chương trình di chuyển từ trang web này sang trang web khác và hoạt động như một trình duyệt.

Nếu sách hoặc tài liệu bị thiếu hoặc bị hỏng, trình thu thập thông tin sẽ không thể đọc sách hoặc tài liệu đó. Trình thu thập thông tin sẽ cố gắng tìm nạp từng URL để xác định trạng thái của tài liệu. Nếu một tài liệu trả về mã trạng thái lỗi, thì trình thu thập dữ liệu không thể sử dụng bất kỳ nội dung nào trong tài liệu đó và có thể thử lại URL đó sau. Điều này đảm bảo chỉ những tài liệu có thể truy cập công khai mới được truy cập vào chỉ mục.

Nếu trình thu thập dữ liệu phát hiện thấy mã trạng thái chuyển hướng (như 301 hoặc 302), thì chúng sẽ đi theo lệnh chuyển hướng đến một URL mới và tiếp tục ở đó. Sau khi nhận được phản hồi thành công, nghĩa là họ đã tìm thấy tài liệu mà người dùng có thể truy cập, họ sẽ kiểm tra xem tài liệu đó có được phép thu thập dữ liệu hay không rồi tải nội dung xuống.

Bước kiểm tra này bao gồm HTML và tất cả nội dung được đề cập trong HTML, chẳng hạn như hình ảnh, video hoặc JavaScript. Trình thu thập thông tin cũng trích xuất các đường liên kết từ các tài liệu HTML để trình thu thập thông tin cũng có thể truy cập vào các URL được liên kết. Đường liên kết giúp trình thu thập dữ liệu tìm các trang mới trên web.

Trình thu thập thông tin không chủ động nhấp vào đường liên kết hoặc nút, mà sẽ gửi URL đến hàng đợi để thu thập dữ liệu sau này. Khi truy cập vào một URL mới, sẽ không có cookie, trình chạy dịch vụ hoặc bộ nhớ cục bộ (như IndexedDB).

Tạo chỉ mục

Sau khi truy xuất một tài liệu, trình thu thập thông tin sẽ chuyển nội dung đó cho công cụ tìm kiếm để thêm nội dung đó vào chỉ mục. Bây giờ, công cụ tìm kiếm sẽ kết xuất và phân tích nội dung để hiểu nội dung. Kết xuất nghĩa là hiển thị trang như một trình duyệt (với một số hạn chế).

Các công cụ tìm kiếm xem xét từ khoá, tiêu đề, đường liên kết, tiêu đề, văn bản và nhiều thứ khác. Đây được gọi là tín hiệu mô tả nội dung và ngữ cảnh của trang. Tín hiệu cho phép các công cụ tìm kiếm sử dụng trang phù hợp nhất có thể để trả lời mọi cụm từ tìm kiếm nhất định.

Các công cụ tìm kiếm có thể tìm thấy cùng một nội dung tại nhiều URL. Ví dụ: công thức cho "bánh táo" có thể nằm trong /recipes/apple-pie và dưới /recipes/1234. Để tránh lập chỉ mục và hiển thị công thức hai lần, các công cụ tìm kiếm sẽ xác định URL chính và loại bỏ các URL thay thế hiển thị cùng một nội dung.

Cung cấp các kết quả hữu ích nhất

Các công cụ tìm kiếm thực hiện nhiều thao tác hơn là chỉ so khớp truy vấn với các từ khoá trong chỉ mục. Để đưa ra kết quả hữu ích, họ có thể xem xét ngữ cảnh, từ ngữ thay thế, vị trí của người dùng, v.v. Ví dụ: "thung lũng Silicon" có thể đề cập đến khu vực địa lý hoặc chương trình truyền hình. Nhưng nếu cụm từ tìm kiếm là "silicon thung lũng", thì kết quả về khu vực sẽ không hữu ích lắm.

Một số cụm từ tìm kiếm có thể mang tính gián tiếp, chẳng hạn như "bài hát trong tiểu thuyết bột giấy" và các công cụ tìm kiếm cần phải diễn giải cụm từ đó và hiển thị kết quả liên quan đến bản nhạc trong phim. Khi người dùng tìm kiếm nội dung nào đó, công cụ tìm kiếm sẽ xác định các kết quả hữu ích nhất rồi hiển thị kết quả đó cho người dùng. Thứ hạng hoặc thứ tự của các trang diễn ra dựa trên cụm từ tìm kiếm. Thứ tự thường có thể thay đổi theo thời gian nếu có thông tin chính xác hơn.

Các bước tiếp theo: cách tối ưu hoá cho công cụ tìm kiếm

Giờ đây, khi đã nắm được những khái niệm cơ bản về cách hoạt động của công cụ tìm kiếm, có thể bạn sẽ nhận thấy lợi ích của việc tối ưu hoá cho công cụ tìm kiếm. Quá trình này được gọi là SEO hoặc 'Tối ưu hoá cho công cụ tìm kiếm'. Bằng cách đảm bảo rằng các công cụ tìm kiếm có thể tìm thấy và tự động hiểu được nội dung của bạn, bạn đang cải thiện khả năng hiện diện của trang web đối với các nội dung tìm kiếm có liên quan. Nhờ vậy có thể thu hút thêm nhiều người dùng quan tâm truy cập vào trang web của bạn. Hãy kiểm tra trang web của bạn bằng Lighthouse và kiểm tra kết quả SEO để xem các công cụ tìm kiếm có thể giúp người dùng biết đến nội dung của bạn hiệu quả đến mức nào.