搜索的工作原理

搜索引擎相当于图书管理员的数字版。它们使用综合索引来帮助查找与查询有关的正确信息。了解搜索基础知识可让您做好准备,让您的内容更容易被用户发现。

爬就像阅读图书馆中的所有图书一样。搜索引擎需要从网络上获得尽可能多的信息,才能提供任何搜索结果。为此,搜索引擎会使用抓取工具(一种在网站之间跳转并像浏览器一样运行的程序)。

如果图书或文档丢失或损坏,抓取工具将无法读取。抓取工具会尝试提取每个网址以确定文档的状态。如果文档返回错误状态代码,抓取工具将无法使用其任何内容,并且可能稍后重试该网址。这样可以确保只有可公开访问的文档才会被编入索引。

如果抓取工具发现重定向状态代码(例如 301 或 302),则会跟踪重定向到新网址并继续操作。一旦收到成功响应(即找到用户可以访问的文档),他们会检查是否允许抓取该文档,然后下载内容。

此项检查包括 HTML 以及 HTML 中提及的所有内容(例如图片、视频或 JavaScript)。抓取工具还会从 HTML 文档中提取链接,以便抓取工具也能访问链接的网址。抓取工具通过跟踪链接 在网络上查找新网页

抓取工具不会主动点击链接或按钮,但会将网址发送到队列中以便稍后进行抓取。访问新网址时,Cookie、Service Worker 或本地存储空间(如 IndexedDB)都不可用。

构建索引

检索到文档后,抓取工具会将内容交给搜索引擎,以将其添加到索引中。搜索引擎现在会呈现和分析内容来了解它的内容。呈现意味着像浏览器一样显示网页(但存在一些限制)。

搜索引擎会检查关键字、标题、链接、标题、文本以及许多其他内容。这些信息称为“信号”,用于描述网页的内容和情境。借助这些信号,搜索引擎可以尽可能选用最合适的网页来回答任何给定查询。

搜索引擎可能会在不同的网址上找到相同的内容。例如,“苹果派”的食谱可能位于 /recipes/apple-pie 下和 /recipes/1234 下。为避免将食谱编入索引并两次显示,搜索引擎会确定主网址,并舍弃显示相同内容的备用网址。

提供最有用的结果

搜索引擎不仅会将查询与索引中的关键字进行匹配,还会执行更多操作。为了提供有用的结果,它们可能会考虑上下文、替代措辞、用户所在位置等。例如,“硅谷”可能是指地理区域或电视节目。但是,如果查询为“silicon Valley cast”,则该区域的结果不是很有用。

有些查询可能是间接查询(例如“《纸艺小说》中的歌曲”),而搜索引擎需要对其进行解读并显示影片中音乐的搜索结果。当用户进行搜索时,搜索引擎会确定最有用的结果,然后将其显示给用户。网页的排名或排序取决于查询。如果有更好的信息,顺序通常会随着时间而改变。

后续步骤:如何针对搜索引擎进行优化

至此您已经了解了有关搜索引擎工作方式的基本知识,接下来您可能会发现针对搜索引擎进行优化的价值了。我们称之为搜索引擎优化 (SEO) 或“搜索引擎优化”通过确保搜索引擎能够找到并自动理解您的内容,您可以提高您的网站在相关搜索中的曝光度。这可以吸引更多感兴趣的用户访问您的网站。 使用 Lighthouse 审核您的网站,并查看 SEO 结果,了解搜索引擎让用户了解您的内容在多大程度上。