搜索的工作原理

搜索引擎有什么用途?

搜索引擎是图书管理员的数字版。它们使用全面的索引来帮助查找查询的正确信息。了解搜索引擎的基础知识,有助于您让用户发现您的内容。

抓取工具如何浏览网页

抓取就像是阅读图书馆中的所有图书。搜索引擎需要从网络中获取尽可能多的信息,然后才能提供任何搜索结果。为此,搜索引擎会使用抓取工具,这种程序会从一个网站跳转到另一个网站,就像浏览器一样。

如果图书或文档缺失或损坏,抓取工具将无法读取。抓取工具会尝试提取每个网址,以确定文档的状态。如果文档返回错误状态代码,抓取工具将无法使用其任何内容,并且可能会稍后重试该网址。这样可以确保只有可公开访问的文档会进入索引。

如果抓取工具发现重定向状态代码(例如 301 或 302),则会遵循重定向到新网址,并在该网址继续抓取。收到成功响应(即找到了可供用户访问的文档)后,它们会检查是否允许抓取该文档,然后下载内容。

此检查包括 HTML 以及 HTML 中提及的所有内容,例如图片、视频或 JavaScript。抓取工具还会从 HTML 文档中提取链接,以便抓取工具也能访问链接的网址。跟踪链接是抓取工具在网络上查找新网页的方式。

抓取工具不会主动点击链接或按钮,而是会将网址发送到队列,以便稍后抓取。访问新网址时,系统不会提供任何 Cookie、服务工或本地存储空间(例如 IndexedDB)。

构建索引

检索到文档后,抓取工具会将内容交给搜索引擎,以将其添加到索引中。搜索引擎现在会呈现和分析内容,以便加以理解。呈现是指像浏览器一样显示网页(存在一些限制)。

搜索引擎会考虑关键字、标题、链接、标题、文本以及许多其他因素。这些信息称为信号,用于描述网页的内容和背景信息。借助信号,搜索引擎可以使用尽可能优质的网页来回答任何给定查询。

搜索引擎可能会在不同的网址下找到相同的内容。例如,“苹果派”食谱可能位于 /recipes/apple-pie/recipes/1234 下。为避免将食谱编入索引并两次显示,搜索引擎会确定主网址,并舍弃显示相同内容的备用网址。

提供最实用的结果

搜索引擎的工作不仅仅是将查询与索引中的关键字进行匹配。为了提供实用的结果,他们可能会考虑上下文、其他措辞、用户所在的位置等因素。例如,“硅谷”可能指地理区域,也可能指电视节目。但是,如果查询是“硅谷演员”,则关于该地区的结果就没有多大帮助。

有些查询可能比较间接,例如“《低俗小说》中的歌曲”,搜索引擎需要对其进行解读,并显示电影中音乐的搜索结果。当用户搜索某项内容时,搜索引擎会确定最实用的结果,然后将其显示给用户。网页的排名(或排序)是根据查询进行的。如果有更好的信息可用,排序顺序通常会随时间推移而发生变化。

后续步骤:如何针对搜索引擎进行优化

现在,您已经了解了搜索引擎的基本工作原理,或许您已经认识到针对搜索引擎进行优化的价值。这称为 SEO,即“搜索引擎优化”。确保搜索引擎能够找到并自动理解您的内容,有助于提高您的网站在相关搜索中的曝光度。这可能会为您的网站带来更多感兴趣的用户。使用 Lighthouse 审核您的网站,并查看 SEO 结果,了解搜索引擎在让用户了解您的内容方面表现如何。