Cách hoạt động của Google Tìm kiếm

Công cụ tìm kiếm làm gì?

Công cụ tìm kiếm là phiên bản kỹ thuật số của một nhân viên thư viện. Các công cụ này sử dụng một chỉ mục toàn diện để giúp tìm thông tin phù hợp cho một truy vấn. Việc hiểu rõ kiến thức cơ bản về hoạt động tìm kiếm sẽ giúp bạn chuẩn bị để giúp người dùng tìm thấy nội dung của bạn.

Cách trình thu thập thông tin duyệt web

Việc thu thập dữ liệu cũng giống như việc đọc tất cả sách trong thư viện. Trước khi có thể đưa ra kết quả tìm kiếm, các công cụ tìm kiếm cần có nhiều thông tin nhất có thể từ web. Để làm việc này, các công cụ tìm kiếm sử dụng trình thu thập thông tin – một chương trình di chuyển từ trang web này sang trang web khác và hoạt động như một trình duyệt.

Nếu một cuốn sách hoặc tài liệu bị thiếu hoặc bị hỏng, trình thu thập thông tin sẽ không thể đọc cuốn sách hoặc tài liệu đó. Trình thu thập thông tin cố gắng tìm nạp từng URL để xác định trạng thái của tài liệu. Nếu một tài liệu trả về một mã trạng thái lỗi, trình thu thập thông tin không thể sử dụng bất kỳ nội dung nào của tài liệu đó và có thể thử lại URL sau. Điều này đảm bảo rằng chỉ những tài liệu có thể truy cập công khai mới được đưa vào chỉ mục.

Nếu phát hiện thấy mã trạng thái chuyển hướng (chẳng hạn như 301 hoặc 302), trình thu thập thông tin sẽ theo lệnh chuyển hướng đến một URL mới và tiếp tục ở đó. Sau khi nhận được phản hồi thành công, tức là đã tìm thấy một tài liệu mà người dùng có thể truy cập, trình thu thập thông tin sẽ kiểm tra xem tài liệu đó có được phép thu thập thông tin hay không, sau đó tải nội dung xuống.

Quy trình kiểm tra này bao gồm HTML và tất cả nội dung được đề cập trong HTML, chẳng hạn như hình ảnh, video hoặc JavaScript. Trình thu thập dữ liệu cũng trích xuất các đường liên kết từ tài liệu HTML để trình thu thập dữ liệu cũng có thể truy cập vào các URL được liên kết. Việc theo dõi đường liên kết là cách trình thu thập thông tin tìm thấy các trang mới trên web.

Trình thu thập thông tin không chủ động nhấp vào đường liên kết hoặc nút, mà thay vào đó, gửi URL vào hàng đợi để thu thập thông tin sau. Khi truy cập vào một URL mới, không có cookie, worker dịch vụ hoặc bộ nhớ cục bộ (như IndexedDB) nào.

Tạo chỉ mục

Sau khi truy xuất một tài liệu, trình thu thập thông tin sẽ chuyển nội dung đó đến công cụ tìm kiếm để thêm vào chỉ mục. Giờ đây, công cụ tìm kiếm sẽ hiển thị và phân tích nội dung để hiểu nội dung đó. Kết xuất có nghĩa là hiển thị trang như trình duyệt sẽ làm (với một số hạn chế).

Công cụ tìm kiếm xem xét từ khoá, tiêu đề, đường liên kết, tiêu đề, văn bản và nhiều yếu tố khác. Đây được gọi là tín hiệu mô tả nội dung và ngữ cảnh của trang. Các tín hiệu cho phép công cụ tìm kiếm trả lời bất kỳ cụm từ tìm kiếm nào bằng trang phù hợp nhất có thể.

Các công cụ tìm kiếm có thể tìm thấy cùng một nội dung ở nhiều URL. Ví dụ: công thức nấu "bánh táo" có thể nằm trong /recipes/apple-pie và trong /recipes/1234. Để tránh việc lập chỉ mục và hiển thị công thức nấu ăn hai lần, các công cụ tìm kiếm sẽ xác định URL chính và loại bỏ các URL thay thế hiển thị cùng một nội dung.

Phân phát kết quả hữu ích nhất

Công cụ tìm kiếm không chỉ so khớp cụm từ tìm kiếm với từ khoá trong chỉ mục. Để đưa ra kết quả hữu ích, các thuật toán này có thể xem xét ngữ cảnh, cách diễn đạt thay thế, vị trí của người dùng và nhiều yếu tố khác. Ví dụ: "thung lũng silicon" có thể đề cập đến một khu vực địa lý hoặc chương trình truyền hình. Nhưng nếu cụm từ tìm kiếm là "silicon valley cast" (dàn diễn viên của Silicon Valley), thì kết quả về khu vực này sẽ không hữu ích lắm.

Một số cụm từ tìm kiếm có thể gián tiếp, chẳng hạn như "bản nhạc trong Pulp Fiction". Các công cụ tìm kiếm cần diễn giải cụm từ đó và hiển thị kết quả về bản nhạc trong phim. Khi người dùng tìm kiếm nội dung nào đó, công cụ tìm kiếm sẽ xác định những kết quả hữu ích nhất rồi hiển thị cho người dùng. Việc xếp hạng hoặc sắp xếp các trang sẽ diễn ra dựa trên truy vấn. Thứ tự này thường có thể thay đổi theo thời gian nếu có thông tin tốt hơn.

Các bước tiếp theo: cách tối ưu hoá cho công cụ tìm kiếm

Giờ đây, khi đã hiểu rõ kiến thức cơ bản về cách hoạt động của công cụ tìm kiếm, bạn có thể thấy giá trị của việc tối ưu hoá cho công cụ tìm kiếm. Đây được gọi là SEO, hay "Tối ưu hoá cho công cụ tìm kiếm". Bằng cách đảm bảo rằng các công cụ tìm kiếm có thể tìm thấy và tự động hiểu nội dung của bạn, bạn đang cải thiện khả năng hiển thị của trang web cho các cụm từ tìm kiếm có liên quan. Nhờ đó, bạn có thể thu hút thêm nhiều người dùng quan tâm truy cập vào trang web của bạn. Kiểm tra trang web của bạn bằng Lighthouse và kiểm tra kết quả SEO để xem công cụ tìm kiếm có thể giúp người dùng biết được nội dung của bạn ở mức độ nào.