此页面由 Cloud Translation API 翻译。

Core Web Vitals 指标阈值是如何定义的

核心网页指标阈值背后的研究和方法

Bryan McQuade

Barry Pollard

发布时间：2020 年 5 月 21 日；上次更新时间：2025 年 5 月 7 日

核心网页指标是一组实测指标，用于衡量网络上真实用户体验的重要方面。核心网页指标包含指标以及每个指标的目标阈值，可帮助开发者定性了解其网站的用户体验是“良好”“需要改进”还是“欠佳”。本文将介绍为 Core Web Vitals 指标选择阈值的一般方法，以及为每个具体 Core Web Vitals 指标选择阈值的方式。

温故知新：Core Web Vitals 指标和阈值

Core Web Vitals 指标包括以下三个指标：Largest Contentful Paint (LCP)、Interaction to Next Paint (INP) 和 Cumulative Layout Shift (CLS)。每个指标衡量用户体验的不同方面：LCP 衡量用户感知的加载速度，并标记网页加载时间轴中网页主要内容可能已加载的位置；INP 衡量响应能力，并量化用户尝试与网页互动时的体验；CLS 衡量视觉稳定性，并量化可见网页内容的意外布局偏移量。

每个 Core Web Vitals 指标都有相关阈值，这些阈值会将效果分类为“良好”“需要改进”或“欠佳”：

	良好	差	百分位
最大内容渲染时间	≤2500 毫秒	>4000 毫秒	75
Interaction to Next Paint	≤200 毫秒	>500 毫秒	75
累积布局偏移	≤0.1	>0.25	75

Core Web Vitals 阈值

此外，为了对网页或网站的整体效果进行分类，我们会使用该网页或网站的所有网页浏览量的第 75 个百分位数值。换句话说，如果某个网站至少有 75% 的网页浏览量达到“良好”阈值，则该网站在该指标方面的表现会被归类为“良好”。反之，如果至少 25% 的网页浏览量达到“较差”阈值，则该网站会被归类为“效果较差”。例如，第 75 百分位的 LCP 为 2 秒被归类为“良好”，而第 75 百分位的 LCP 为 5 秒被归类为“欠佳”。

核心网页指标阈值的标准

在本部分中，我们将介绍评估核心网页指标阈值的标准。后续部分将详细介绍如何应用这些标准来为每个指标选择阈值。在未来几年里，我们预计会改进和补充这些标准和阈值，以进一步提升衡量 Web 上出色用户体验的能力。

优质的用户体验

我们的首要目标是为用户和他们的体验质量进行优化。因此，我们的目标是确保符合 Core Web Vitals“良好”阈值的网页能够提供优质的用户体验。

为了确定与优质用户体验相关的阈值，我们参考了人体感知和人机交互研究。虽然这项研究有时会使用单个固定阈值进行总结，但我们发现，基础研究通常以一系列值的形式表达。例如，关于用户在失去焦点前通常等待多长时间的研究有时会描述为 1 秒，而基础研究实际上是用一个范围来表示，范围从几百毫秒到几秒钟。汇总的匿名 Chrome 指标数据进一步证实了感知阈值因用户和情境而异这一事实，这些数据表明，用户等待网页显示内容的时间并非固定不变，而是会因用户和情境而异。相反，这些数据显示了平滑连续的分布。如需更深入地了解人类感知阈值和相关的 HCI 研究，请参阅核心网页指标背后的科学。

如果某个给定指标有相关的用户体验研究，并且文献中对值范围达成了合理共识，我们会将此范围用作输入，以指导我们的阈值选择流程。如果无法获得相关的用户体验研究（例如，对于累积布局偏移等新指标），我们会改为评估符合指标的不同候选阈值的真实网页，以确定可带来良好用户体验的阈值。

可通过现有 Web 内容实现

此外，为了确保网站所有者能够成功优化其网站以达到“良好”阈值，我们要求这些阈值对于网络上的现有内容是可实现的。例如，虽然零毫秒是理想的 LCP“良好”阈值，可带来即时加载体验，但由于网络和设备处理延迟，在大多数情况下，零毫秒阈值在实践中是无法实现的。因此，零毫秒并不是 Core Web Vitals 的合理 LCP“良好”阈值。

在评估核心网页指标“良好”阈值候选值时，我们会根据 Chrome 用户体验报告 (CrUX) 中的数据，验证这些阈值是否可实现。为了确认某个阈值是可实现的，我们要求至少有 10% 的来源达到“良好”阈值。此外，为确保优化程度较高的网站不会因现场数据的变化而被错误分类，我们还会验证优化程度较高的网站是否始终达到“良好”阈值。

相反，我们通过确定只有少数来源未达到的效果水平来确定“较差”阈值。除非有可用于定义“较差”阈值的研究，否则默认情况下，效果最差的 10-30% 来源会被归类为“较差”。

每个设备是否使用相同或不同的条件

移动设备和桌面设备的使用在设备功能和网络可靠性方面通常具有非常不同的特征。这对“可实现性”标准有很大影响，因此建议我们为每项指标分别考虑阈值。

不过，用户对良好或糟糕体验的预期并不取决于设备，即使可实现性标准取决于设备也是如此。因此，核心网页指标建议的阈值并未按设备进行区分，而是针对这两种设备使用相同的阈值。这还有一个额外的好处，即阈值更易于理解。

此外，设备并不总是能很好地归入某一类别。这应该基于设备外形规格、处理能力还是网络状况？使用相同的阈值还有一个附带好处，即避免了这种复杂性。

由于移动设备的限制性更强，因此大多数阈值都是根据移动设备的可实现性设置的。它们更可能代表移动设备的阈值，而不是所有设备类型的真正联合阈值。不过，鉴于移动流量通常是大多数网站的大部分流量，因此这不是一个大问题。

关于标准的最后总结

在评估候选阈值时，我们发现这些条件有时会相互冲突。例如，在确保始终可达到最低要求和始终提供良好用户体验之间，可能会存在矛盾。此外，鉴于人体感知研究通常会提供一个范围的值，而用户行为指标会显示行为的逐渐变化，我们发现指标通常没有单一的“正确”阈值。

因此，我们在确定核心网页指标的阈值时，一直采用的是选择最符合条件的阈值的方法，同时也认识到，没有任何一个阈值是完美的，有时我们可能需要从多个合理的候选阈值中进行选择。我们没有问“什么是理想的阈值？”，而是着重于问“哪个候选阈值最能满足我们的条件？”

这些也是我们可在整个网络中应用的宽泛阈值。许多网站即使达到“良好”阈值，也能从优化中受益，并且应尝试与其各项业务指标相关联。

选择百分位

如前所述，为了对网页或网站的整体效果进行分类，我们会使用该网页或网站的所有访问的 75 分位数值。75 百分位数是根据以下两个标准选择的。首先，百分比应确保网页或网站的大多数访问都达到了目标性能水平。其次，所选百分位数的值不应过多受离群值的影响。

这些目标在某种程度上是相互矛盾的。为了实现第一个目标，通常选择较高的百分位数会更好。不过，百分位数越高，得出结果受到离群值影响的可能性就越大。如果某个网站的部分访问发生在网络连接不稳定的情况下，导致 LCP 样本过大，我们不希望网站分类由这些离群样本决定。例如，如果我们使用高百分位数（例如第 95 百分位数）评估获得了 100 次访问的网站的表现，那么只需 5 个离群值样本，第 95 百分位数值就会受到离群值的影响。

鉴于这些目标之间存在一些矛盾，经过分析，我们认为第 75 个百分位数是一个合理的平衡点。通过使用第 75 个百分位数，我们知道，大多数网站访问（4 次中有 3 次）都达到了目标性能水平或更好。此外，第 75 百分位数值不太可能受到离群值的影响。回到我们的示例，对于获得 100 次访问的网站，其中 25 次访问需要报告大量离群值样本，才能使第 75 个百分位的值受到离群值的影响。虽然 100 个样本中有 25 个是离群值的可能性存在，但这种可能性远低于第 95 百分位的情况。

最大内容渲染时间

在设置 LCP 阈值时，我们考虑了以下体验质量和可实现性因素。

体验质量

通常认为，用户在等待 1 秒钟后就会开始失去对任务的专注。仔细研究相关研究后，我们发现 1 秒是一个近似值，用于描述大约几百毫秒到几秒的值范围。

关于 1 秒阈值，两个常被引用的来源是 Card 等和 Miller。Card 引用了 Newell 的统一认知理论，定义了 1 秒的“即时响应”阈值。Newell 将立即响应定义为“必须在 大约一秒内对某种刺激做出的响应（即大约 0.3 秒到 3 秒）。”这与 Newell 关于“认知的实时约束条件”的讨论相符，其中指出“与环境的互动会引发认知思考，而这种互动发生在几秒钟的时间范围内”，大约介于 0.5 到 2-3 秒之间。Miller 是另一个常被引用的 1 秒阈值来源，他指出：“如果响应延迟超过 2 秒（可能再延长 1 秒左右），人类可以和将会通过机器通信执行的任务将会严重改变其性质。”

Miller 和 Card 的研究将用户在失去焦点之前等待的时间描述为一个范围，大约为 0.3 到 3 秒，这表明我们的 LCP“良好”阈值应在此范围内。此外，鉴于现有的 First Contentful Paint“良好”阈值为 1 秒，并且 Largest Contentful Paint 通常在 First Contentful Paint 之后发生，我们进一步将候选 LCP 阈值范围从 1 秒缩小到 3 秒。为了选择此范围内最符合我们条件的阈值，我们接下来将研究这些候选阈值的可实现性。

可实现性

使用 CrUX 中的数据，我们可以确定网络上满足候选 LCP“良好”阈值的来源所占的百分比。

	1 秒	1.5 秒	2 秒	2.5 秒	3 秒
phone	3.5%	13%	27%	42%	55%
桌面版	6.9%	19%	36%	51%	64%

截至 2020 年 4 月，被归类为“良好”的 CrUX 来源所占百分比（针对候选 LCP 阈值）

虽然不到 10% 的源满足 1 秒的阈值，但 1.5 到 3 秒的所有其他阈值都满足我们至少有 10% 的源满足“良好”阈值的要求，因此仍然是有效的候选项。

此外，为了确保所选阈值可由经过良好优化的网站持续实现，我们会分析网络上效果最佳的网站的 LCP 性能，以确定哪些阈值可由这些网站持续实现。具体而言，我们的目标是确定一个阈值，使其在效果排名前 75% 的网站中能够始终达到。我们发现，1.5 秒和 2 秒的阈值无法始终达到，而 2.5 秒的阈值可以始终达到。

为了确定 LCP 的“较差”阈值，我们使用 CrUX 数据来确定大多数来源满足的阈值：

	3 秒	3.5 秒	4 秒	4.5 秒	5 秒
phone	45%	35%	26%	20%	15%
桌面版	36%	26%	19%	14%	10%

截至 2020 年 4 月，被归类为“不佳”的 CrUX 来源所占百分比（针对候选 LCP 阈值）

如果将阈值设为 4 秒，大约 26% 的手机来源和 21% 的桌面设备来源会被归类为“较差”。这属于我们设定的 10-30% 的目标范围，因此我们得出结论，4 秒是一个可接受的“较差”阈值。

因此，我们得出结论，2.5 秒是合理的“良好”阈值，4 秒是合理的“不佳”阈值。

Interaction to Next Paint

在设置 INP 阈值时，我们考虑了以下体验质量和可实现性因素。

体验质量

研究结果基本一致，认为视觉反馈延迟最多可达 100 毫秒，用户会认为延迟是由相关来源（例如用户输入）造成的。这表明，理想的 Interaction to Next Paint“良好”阈值应接近于此。

Jakob Nielsen 的常被引用的响应时间：3 个重要限制将 0.1 秒定义为让用户感觉系统即时响应的限制。Nielsen 引用了 Miller 和 Card，后者引用了 Michotte 1962 年出版的《因果关系的认知》。在 Michotte 的研究中，实验参与者会看到“屏幕上有两个物体。对象 A 出发并向 B 移动。它在与 B 接触的那一刻停止，而后者随后启动并远离 A。”Michotte 会改变 Object A 停止和 Object B 开始移动之间的时间间隔。Michotte 发现，如果延迟时间不超过大约 100 毫秒，参与者会认为对象 A 会导致对象 B 的运动。对于大约 100 毫秒到 200 毫秒的延迟，人们对因果关系的看法不一致；对于超过 200 毫秒的延迟，人们不再认为对象 B 的运动是由对象 A 引起的。

同样，Miller 将“对控件激活的响应”的响应阈值定义为“通常由按键、开关或其他控件成员的移动给出，表示其已被物理激活的操作指示。此响应应被视为操作者诱导的力学操作的一部分。时间延迟：不超过 0.1 秒”，后面还规定“按下按键和视觉反馈之间的延迟不应超过 0.1 到 0.2 秒”。

在最近的 Towards the Temporally Perfect Virtual Button 中，Kaaresoja 等人研究了在触摸触摸屏上的虚拟按钮与随后指示按钮已被触摸的视觉反馈之间，在各种延迟情况下的同步感知。当按下按钮与视觉反馈之间的延迟时间不超过 85 毫秒时，参与者报告说，在 75% 的时间里，视觉反馈会与按下按钮同时出现。此外，对于延迟时间不超过 100 毫秒的按钮按压，参与者报告的按压感知质量始终较高；当延迟时间在 100 毫秒到 150 毫秒之间时，感知质量会下降；当延迟时间达到 300 毫秒时，感知质量会非常低。

因此，我们得出结论，研究表明 100 毫秒是 Web Vitals 的“良好”Interaction to Next Paint 阈值。此外，鉴于用户报告延迟时间达到 300 毫秒或更高时质量较低，因此理想情况下，延迟时间应不超过 300 毫秒，否则会被视为“较差”。

可实现性

使用 CrUX 中的数据，我们确定 Web 上的大多数来源在第 75 个百分位数时满足 200 毫秒 INP“良好”阈值：

	100 毫秒	200 毫秒	300 毫秒	400 毫秒	500 毫秒
phone	12%	56%	76%	88%	92%
桌面版	83%	96%	98%	99%	99%

截至 2022 年 5 月，被归类为“良好”的 CrUX 来源占候选 INP 阈值的百分比

我们还特别关注了低端移动设备是否能够通过 INP 验证，因为这些设备在网站访问量中占据了很大比例。这进一步证实了 200 毫秒的阈值是合适的。

考虑到体验质量研究和可实现性标准支持的 100 毫秒阈值，我们得出结论，200 毫秒是一个合理的良好体验阈值

为了确定 LCP 的“较差”阈值，我们使用 CrUX 数据来确定大多数来源满足的阈值：

	100 毫秒	200 毫秒	300 毫秒	400 毫秒	500 毫秒
phone	88%	44%	24%	12%	8%
桌面版	17%	4%	2%	1%	1%

截至 2022 年 5 月，被归类为“较差”的 CrUX 来源所占百分比（针对候选 INP 阈值）

这表明，我们可以将“较差”阈值设为 300 毫秒。

不过，与 LCP 和 CLS 不同，INP 与热门程度呈负相关关系：热门网站往往更复杂，因此 INP 更有可能较高。当我们查看前 1 万个网站（这些网站占互联网浏览量的绝大多数）时，会发现一个更为复杂的情况：

	100 毫秒	200 毫秒	300 毫秒	400 毫秒	500 毫秒
phone	97%	77%	55%	37%	24%
桌面版	48%	17%	8%	4%	2%

截至 2022 年 5 月，在前 1 万个 CrUX 来源中，被归类为“较差”的 INP 候选阈值来源所占的百分比

在移动设备上，如果将 300 毫秒设为“较差”阈值，则会将大多数热门网站都归类为“较差”，这会使我们的可实现性标准过于宽松；而 500 毫秒更适合 10-30% 的网站。另请注意，200 毫秒的“良好”阈值对这些网站来说也更难达到，但仍有 23% 的网站在移动设备上达到了此阈值，因此仍符合我们最低 10% 的通过率标准。

因此，我们得出结论，200 毫秒是大多数网站的合理“良好”阈值，超过 500 毫秒是合理的“不佳”阈值。

累积布局偏移

在设置 CLS 阈值时，我们考虑了以下体验质量和可实现性因素。

体验质量

累积布局偏移 (CLS) 是一个新指标，用于衡量网页可见内容的偏移量。由于 CLS 是一个新指标，我们目前还没有发现任何研究可以直接为该指标的阈值提供依据。因此，为了确定与用户预期相符的阈值，我们评估了布局偏移量不同的真实网页，以确定在使用网页内容时不会造成严重干扰之前，用户认为可接受的最大偏移量。在内部测试中，我们发现，0.15 或更高的偏移量始终被视为干扰性偏移，而 0.1 或更低的偏移量虽然明显，但干扰性不太大。因此，虽然理想情况下布局偏移应为零，但我们得出的结论是，值不超过 0.1 是“良好”CLS 阈值的候选值。

可实现性

根据 CrUX 数据，我们可以看到，近 50% 的来源的 CLS 为 0.05 或更低。

	0.05	0.1	0.15
phone	49%	60%	69%
桌面版	42%	59%	69%

截至 2020 年 4 月，被归类为“良好”的 CrUX 源的百分比（针对候选 CLS 阈值）

虽然 CrUX 数据表明 0.05 可能是合理的 CLS“良好”阈值，但我们也认识到，在某些用例中，很难避免破坏性的布局偏移。例如，对于第三方嵌入内容（例如社交媒体嵌入内容），嵌入内容的高度有时在其加载完成之前是未知的，这可能会导致布局偏移大于 0.05。因此，我们得出结论，虽然许多来源都达到了 0.05 的阈值，但稍微宽松一些的 CLS 阈值 (0.1) 在体验质量和可实现性之间取得了更好的平衡。我们希望，今后，网络生态系统能够找到解决由第三方嵌入内容导致的布局偏移问题的解决方案，以便在 Core Web Vitals 的未来迭代中使用更严格的 CLS“良好”阈值（0.05 或 0）。

此外，为了确定 CLS 的“较差”阈值，我们使用了 CrUX 数据来确定大多数来源满足的阈值：

	0.15	0.2	0.25	0.3
phone	31%	25%	20%	18%
桌面版	31%	23%	18%	16%

截至 2020 年 4 月，在候选 CLS 阈值方面被归类为“较差”的 CrUX 来源所占的百分比

如果阈值为 0.25，则大约 20% 的手机来源和 18% 的桌面来源会被归类为“较差”。这在我们的目标范围（10-30%）内，因此我们得出结论，0.25 是一个可接受的“较差”阈值。

Core Web Vitals 指标阈值是如何定义的 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

温故知新：Core Web Vitals 指标和阈值

核心网页指标阈值的标准

优质的用户体验

可通过现有 Web 内容实现

每个设备是否使用相同或不同的条件

关于标准的最后总结

选择百分位

最大内容渲染时间

体验质量

可实现性

Interaction to Next Paint

体验质量

可实现性

累积布局偏移

体验质量

可实现性

Core Web Vitals 指标阈值是如何定义的