Cómo se definieron los umbrales de las métricas de Core Web Vitals

La investigación y la metodología detrás de los umbrales de las Métricas web esenciales

Fecha de publicación: 21 de mayo de 2020

Las Métricas web esenciales son un conjunto de métricas de campo que miden aspectos importantes de la experiencia del usuario en el mundo real en la Web. Las Métricas web esenciales incluyen métricas, así como umbrales objetivo para cada métrica, que ayudan a los desarrolladores a comprender de forma cualitativa si la experiencia de su sitio es “buena”, “necesita mejoras” o es “mala”. En esta publicación, se explicará el enfoque que se usa para elegir los umbrales de las métricas de Core Web Vitals en general, así como cómo se eligieron los umbrales de cada métrica específica de Core Web Vitals.

Actualización: Métricas y umbrales de las Métricas web esenciales

Las Métricas web esenciales son tres métricas: Largest Contentful Paint (LCP), Interaction to Next Paint (INP) y Cambio de diseño acumulado (CLS). Cada métrica mide un aspecto diferente de la experiencia del usuario: LCP mide la velocidad de carga percibida y marca el punto en el cronograma de carga de la página en el que es probable que se haya cargado el contenido principal de la página; INP mide la capacidad de respuesta y cuantifica la experiencia que sienten los usuarios cuando intentan interactuar con la página; y CLS mide la estabilidad visual y cuantifica la cantidad de cambios de diseño inesperados del contenido visible de la página.

Cada métrica de las Métricas web esenciales tiene umbrales asociados, que categorizan el rendimiento como "bueno", "necesita mejoras" o "malo":

Recomendaciones sobre el umbral de procesamiento de imagen con contenido más grande Recomendaciones de umbral de Interaction to Next Paint Recomendaciones de umbral de cambio de diseño acumulado
  Bueno Deficiente Percentil
Procesamiento de imagen con contenido más grande ≤2,500 ms >4,000 ms 75
Interaction to Next Paint ≤200 ms >500 ms 75
Cambio de diseño acumulado ≤0.1 >0.25 75
Umbrales de Core Web Vitals

Además, para clasificar el rendimiento general de una página o un sitio, usamos el valor del percentil 75 de todas las vistas de página de esa página o sitio. En otras palabras, si al menos el 75% de las vistas de página de un sitio cumplen con el umbral de "buen rendimiento", el sitio se clasifica como "buen rendimiento" para esa métrica. Por el contrario, si al menos el 25% de las vistas de página cumplen con el umbral de "deficiente", el sitio se clasifica como "deficiente" en cuanto al rendimiento. Por ejemplo, un LCP del percentil 75 de 2 segundos se clasifica como "bueno", mientras que un LCP del percentil 75 de 5 segundos se clasifica como "deficiente".

Criterios para los umbrales de las métricas de las Métricas web esenciales

En esta sección, analizaremos los criterios para evaluar los umbrales de las métricas de las Métricas web esenciales. En las secciones siguientes, se explicará con más detalle cómo se aplicaron estos criterios para seleccionar los umbrales de cada métrica. En los próximos años, prevemos realizar mejoras y agregar criterios y umbrales para mejorar aún más nuestra capacidad de medir experiencias del usuario excelentes en la Web.

Experiencia del usuario de alta calidad

Nuestro objetivo principal es optimizar para el usuario y su calidad de experiencia. Por lo tanto, nuestro objetivo es garantizar que las páginas que cumplan con los umbrales de "buenos" de las métricas web esenciales proporcionen una experiencia del usuario de alta calidad.

Para identificar un umbral asociado con una experiencia del usuario de alta calidad, analizamos la percepción humana y la investigación de la HCI. Si bien esta investigación a veces se resume con un solo umbral fijo, observamos que la investigación subyacente suele expresarse como un rango de valores. Por ejemplo, la investigación sobre la cantidad de tiempo que los usuarios suelen esperar antes de perder el enfoque a veces se describe como 1 segundo, mientras que la investigación subyacente se expresa como un rango, de cientos de milisegundos a varios segundos. El hecho de que los umbrales de percepción varíen en función del usuario y el contexto se evidencia aún más en los datos agregados y anonimizados de las métricas de Chrome, que demuestran que no hay una sola cantidad de tiempo que los usuarios deben esperar para que una página web muestre contenido antes de anular la carga. En cambio, estos datos muestran una distribución fluida y continua. Para obtener una perspectiva más detallada de los umbrales de percepción humana y la investigación relevante de la HCI, consulta La ciencia detrás de los indicadores web.

En los casos en que haya una investigación relevante sobre la experiencia del usuario disponible para una métrica determinada y haya un consenso razonable sobre el rango de valores en la literatura, usamos este rango como entrada para guiar nuestro proceso de selección de umbrales. En los casos en los que no hay investigaciones relevantes sobre la experiencia del usuario, como en el caso de una métrica nueva, como el cambio de diseño acumulativo, en su lugar, evaluamos páginas del mundo real que cumplen con diferentes umbrales de candidatos para una métrica, con el objetivo de identificar un umbral que genere una buena experiencia del usuario.

Se puede lograr con el contenido web existente

Además, para garantizar que los propietarios de sitios puedan optimizar sus sitios para cumplir con los umbrales "buenos", exigimos que estos umbrales sean alcanzables para el contenido existente en la Web. Por ejemplo, si bien cero milisegundos es un umbral "bueno" ideal de la LCP, lo que genera experiencias de carga instantáneas, en la mayoría de los casos, no se puede alcanzar un umbral de cero milisegundos, debido a las latencias de procesamiento de la red y del dispositivo. Por lo tanto, cero milisegundos no es un umbral de "buen" LCP razonable para las Métricas web esenciales.

Cuando evaluamos los umbrales "buenos" de las Métricas web esenciales candidatas, verificamos que se puedan alcanzar, según los datos del Informe sobre la experiencia del usuario en Chrome (CrUX). Para confirmar que se puede alcanzar un umbral, requerimos que al menos el 10% de los origen cumplan con el umbral "bueno". Además, para garantizar que los sitios bien optimizados no se clasifiquen de forma incorrecta debido a la variabilidad de los datos de campo, también verificamos que el contenido bien optimizado cumpla de forma coherente con el umbral "bueno".

Por el contrario, establecemos el umbral de "deficiente" identificando un nivel de rendimiento que solo una minoría de orígenes no cumple. A menos que haya una investigación disponible relevante para definir un umbral "deficiente", de forma predeterminada, el 10% al 30% de los orígenes con el peor rendimiento se clasifican como "deficientes".

Si deseas tener los mismos criterios o criterios diferentes por dispositivo

El uso de dispositivos móviles y computadoras de escritorio suele tener características muy diferentes en cuanto a las capacidades del dispositivo y la confiabilidad de la red. Esto afecta en gran medida los criterios de "alcanzabilidad" y, por lo tanto, sugiere que debemos considerar umbrales separados para cada uno.

Sin embargo, las expectativas de los usuarios de una experiencia buena o mala no dependen del dispositivo, incluso si los criterios de viabilidad lo son. Por esta razón, los umbrales recomendados de las Métricas web esenciales no están segregados por dispositivo y se usa el mismo umbral para ambos. Esto también tiene el beneficio adicional de facilitar la comprensión de los umbrales.

Además, los dispositivos no siempre se ajustan bien a una categoría. ¿Debe basarse en el factor de forma del dispositivo, la potencia de procesamiento o las condiciones de la red? Tener los mismos umbrales tiene el beneficio secundario de evitar esa complejidad.

La naturaleza más limitada de los dispositivos móviles implica que la mayoría de los umbrales se establecen en función de la accesibilidad para dispositivos móviles. Es más probable que representen umbrales para dispositivos móviles, en lugar de un verdadero umbral conjunto para todos los tipos de dispositivos. Sin embargo, dado que los dispositivos móviles suelen representar la mayor parte del tráfico de la mayoría de los sitios, esto no es un problema.

Reflexiones finales sobre los criterios

Cuando evaluamos los umbrales de candidatos, descubrimos que, a veces, los criterios estaban en conflicto entre sí. Por ejemplo, puede haber una tensión entre que un umbral se pueda alcanzar de manera coherente y que se garanticen buenas experiencias del usuario de manera coherente. Además, dado que la investigación sobre la percepción humana suele proporcionar un rango de valores, y las métricas de comportamiento de los usuarios muestran cambios graduales en el comportamiento, descubrimos que, a menudo, no hay un único umbral "correcto" para una métrica. Por lo tanto, nuestro enfoque para las Métricas web esenciales fue elegir los umbrales que mejor cumplen con los criterios, a la vez que reconocemos que no hay un umbral perfecto y que, a veces, es posible que debamos elegir entre varios umbrales candidatos razonables. En lugar de preguntarnos "¿cuál es el umbral perfecto?", nos enfocamos en preguntarnos "¿qué umbral candidato cumple mejor con nuestros criterios?".

Elección de percentil

Como se señaló anteriormente, para clasificar el rendimiento general de una página o un sitio, usamos el valor del percentil 75 de todas las visitas a esa página o ese sitio. El percentil 75 se eligió en función de dos criterios. En primer lugar, el percentil debe garantizar que la mayoría de las visitas a una página o un sitio hayan experimentado el nivel de rendimiento objetivo. En segundo lugar, el valor del percentil elegido no debe verse demasiado afectado por los valores extremos.

Estos objetivos están un poco en desacuerdo. Para satisfacer el primer objetivo, un percentil más alto suele ser una mejor opción. Sin embargo, con percentiles más altos, también aumenta la probabilidad de que el valor resultante se vea afectado por valores atípicos. Si algunas visitas a un sitio se realizan en conexiones de red inestables que generan muestras de LCP demasiado grandes, no queremos que estos valores atípicos decidan la clasificación de nuestro sitio. Por ejemplo, si estuviéramos evaluando el rendimiento de un sitio con 100 visitas usando un percentil alto, como el 95%, solo se necesitarían 5 muestras de valores atípicos para que el valor del percentil 95% se vea afectado por los valores atípicos.

Dado que estos objetivos están un poco en conflicto, después del análisis, concluimos que el percentil 75 logra un equilibrio razonable. Cuando usamos el percentil 75, sabemos que la mayoría de las visitas al sitio (3 de 4) experimentaron el nivel de rendimiento objetivo o uno mejor. Además, es menos probable que el valor del percentil 75 se vea afectado por valores atípicos. Volviendo a nuestro ejemplo, en el caso de un sitio con 100 visitas, 25 de esas visitas tendrían que informar grandes muestras de valores atípicos para que el valor del percentil 75 se vea afectado por valores atípicos. Si bien es posible que 25 de 100 muestras sean valores atípicos, es mucho menos probable que en el caso del percentil 95.

Procesamiento de imagen con contenido más grande

Los umbrales de LCP se establecieron con las siguientes consideraciones de calidad de la experiencia y alcanzabilidad.

Calidad de la experiencia

A menudo, se cita 1 segundo como la cantidad de tiempo que un usuario esperará antes de comenzar a perder el enfoque en una tarea. Tras una inspección más detallada de la investigación relevante, descubrimos que 1 segundo es una aproximación para describir un rango de valores, de aproximadamente varios cientos de milisegundos a varios segundos.

Dos fuentes que se citan con frecuencia para el umbral de 1 segundo son Card and other y Miller. Card define un umbral de "respuesta inmediata" de 1 segundo, citando las Teorías unificadas de cognición de Newell. Newell explica las respuestas inmediatas como “respuestas que se deben hacer a algún estímulo en un plazo de aproximadamente un segundo (es decir, de alrededor de 0.3 s a 3 s)”. Esto sigue el análisis de Newell sobre las "restricciones en tiempo real de la cognición", en el que se señala que "las interacciones con el entorno que evocan consideraciones cognitivas se producen en el orden de segundos", que van desde aproximadamente 0.5 a 2 o 3 segundos. Miller, otra fuente citada con frecuencia para el umbral de 1 segundo, señala que "las tareas que las personas pueden realizar y que harán con las comunicaciones de máquina cambiarán seriamente su carácter si los retrasos en las respuestas son superiores a dos segundos, con una posible extensión de otro segundo aproximadamente".

La investigación de Miller y Card describe la cantidad de tiempo que un usuario esperará antes de perder el foco como un rango, de aproximadamente 0.3 a 3 segundos, lo que sugiere que nuestro umbral de “bueno” LCP debería estar en este rango. Además, dado que el umbral de “bueno” del primer procesamiento de imagen con contenido existente es de 1 segundo y que el procesamiento de imagen con contenido más grande suele ocurrir después del primer procesamiento de imagen con contenido, limitamos aún más nuestro rango de umbrales de LCP candidatos, de 1 a 3 segundos. Para elegir el umbral en este rango que mejor cumpla con nuestros criterios, a continuación, analizamos la posibilidad de alcanzar estos umbrales candidatos.

Alcance

Con los datos de CrUX, podemos determinar el porcentaje de orígenes en la Web que cumplen con nuestros umbrales "buenos" de LCP candidatos.

  1 segundo 1.5 segundos 2 segundos 2.5 segundos 3 segundos
phone 3.5% 13% 27% 42% 55%
computadora de escritorio 6,9 % 19% 36% 51% 64%
% de orígenes de CrUX clasificados como "buenos" para los umbrales de LCP candidatos a abril de 2020

Si bien menos del 10% de los orígenes cumplen con el umbral de 1 segundo, todos los demás umbrales de 1.5 a 3 segundos satisfacen nuestro requisito de que, al menos, el 10% de los orígenes cumplan con el umbral "bueno" y, por lo tanto, siguen siendo candidatos válidos.

Además, para garantizar que el umbral elegido se pueda alcanzar de manera coherente en los sitios bien optimizados, analizamos el rendimiento de la LCP en los sitios con mejor rendimiento en la Web para determinar qué umbrales se pueden alcanzar de manera coherente en estos sitios. Específicamente, nuestro objetivo es identificar un umbral que se pueda alcanzar de manera coherente en el percentil 75 de los sitios con mejor rendimiento. Descubrimos que los umbrales de 1.5 y 2 segundos no se pueden alcanzar de manera coherente, mientras que los de 2.5 segundos sí lo son.

Para identificar un umbral "bajo" para la LCP, usamos los datos de CrUX para identificar un umbral que cumple la mayoría de los orígenes:

  3 segundos 3.5 segundos 4 segundos 4.5 seconds 5 segundos
phone 45% 35% 26% 20% 15%
computadora de escritorio 36% 26% 19% 14% 10%
Porcentaje de orígenes de CrUX clasificados como "pobres" para los umbrales de LCP candidatos a partir de abril de 2020

Con un umbral de 4 segundos, aproximadamente el 26% de los orígenes de teléfonos y el 21% de los orígenes de computadoras de escritorio, se clasificarían como deficientes. Esto se encuentra dentro de nuestro rango objetivo del 10% al 30%, por lo que concluimos que 4 segundos es un umbral "bajo" aceptable.

Por lo tanto, concluimos que 2.5 segundos es un umbral "bueno" razonable y 4 segundos es un umbral "deficiente" razonable para el procesamiento de imagen con contenido más grande.

Interaction to Next Paint

Los umbrales de INP se establecieron con las siguientes consideraciones de calidad de la experiencia y posibilidad de logro.

Calidad de la experiencia

Las investigaciones son bastante coherentes en concluir que las demoras en los comentarios visuales de hasta alrededor de 100 ms se perciben como causadas por una fuente asociada, como una entrada del usuario. Esto sugiere que un umbral ideal de "buen" Interaction to Next Paint estaría cerca de este.

En el artículo Tiempos de respuesta: los 3 límites importantes de Jakob Nielsen, se define el límite de 0.1 segundos para que el usuario sienta que el sistema reacciona de forma instantánea. Nielsen cita a Miller y Card, quienes citan The Perception of Causality de Michotte de 1962. En la investigación de Michotte, a los participantes del experimento se les muestran “dos objetos en una pantalla. El objeto A se activa y se mueve hacia B. Se detiene en el momento en que entra en contacto con B, mientras que este último comienza y se aleja de A". Michotte varía el intervalo de tiempo entre el momento en que el Objeto A se detiene y el momento en que el Objeto B comienza a moverse. Michotte descubre que, para retrasos de hasta 100 ms, los participantes tienen la impresión de que el Objeto A causa el movimiento del Objeto B. Para retrasos de aproximadamente 100 ms a 200 ms, la percepción de causalidad es mixta y, para retrasos superiores a 200 ms, el movimiento del objeto B ya no se considera causado por el objeto A.

De manera similar, Miller define un umbral de respuesta para "Respuesta a la activación del control" como "la indicación de acción dada, por lo general, por el movimiento de una tecla, un interruptor o algún otro miembro de control que indica que se activó físicamente. Esta respuesta debe percibirse como parte de la acción mecánica que induce el operador. Tiempo de demora: No más de 0.1 segundos" y, más adelante, "la demora entre presionar una tecla y la respuesta visual no debe ser superior a 0.1 a 0.2 segundos".

Más recientemente, en Towards the Temporally Perfect Virtual Button, Kaaresoja y otros investigaron la percepción de simultaneidad entre tocar un botón virtual en una pantalla táctil y la respuesta visual posterior que indica que se tocó el botón, para varios retrasos. Cuando el retraso entre la presión de un botón y la respuesta visual era de 85 ms o menos, los participantes informaron que los comentarios visuales aparecieron simultáneamente cuando se presionaba el botón el 75% de las veces. Además, para las demoras de 100 ms o menos, los participantes informaron una calidad percibida del botón de prensado alta y constante, con una disminución de la calidad percibida para las demoras de 100 ms a 150 ms y alcanzando niveles muy bajos para las demoras de 300 ms.

Por lo tanto, concluimos que la investigación señala 100 ms como un umbral "bueno" de interacción a la siguiente pintura para las métricas web esenciales. Además, dado que los usuarios informaron niveles de calidad bajos para demoras de 300 ms o más, lo ideal sería que este fuera el umbral de "pobre".

Alcance

Con los datos de CrUX, determinamos que la mayoría de los orígenes en la Web alcanzan el umbral de INP “bueno” de 200 ms en el percentil 75:

  100 ms 200 ms 300 ms 400 ms 500 ms
phone 12% 56% 76% 88% 92%
computadora de escritorio 83% 96% 98% 99% 99%
Porcentaje de orígenes de CrUX clasificados como "buenos" para los umbrales de INP candidatos a mayo de 2022

También dedicamos más atención al análisis de la viabilidad de pasar INP para los dispositivos móviles de gama baja, en los que aquellos constituían una gran proporción de visitas a los sitios. Esto confirmó aún más la idoneidad de un umbral de 200 ms.

Si tenemos en cuenta el umbral de 100 ms respaldado por la investigación sobre la calidad de la experiencia y los criterios de viabilidad, concluimos que 200 ms es un umbral razonable para obtener buenas experiencias.

Para identificar un umbral "bajo" para el LCP, usamos los datos de CrUX para identificar un umbral que cumple la mayoría de los orígenes:

  100 ms 200 ms 300 ms 400 ms 500 ms
phone 88% 44% 24% 12% 8%
computadora de escritorio 17% 4% 2% 1% 1%
Porcentaje de orígenes de CrUX clasificados como "deficiente" para los umbrales de INP candidatos a partir de mayo de 2022

Esto sugiere que podemos tener un umbral "bajo" de 300 ms.

Sin embargo, a diferencia de la LCP y la CLS, el INP tiene una correlación inversa con la popularidad: los sitios más populares suelen ser más complejos, lo que aumenta la probabilidad de que el INP sea más alto. Cuando observamos los 10,000 sitios principales, que conforman la gran mayoría de la navegación por Internet, observamos un panorama más complejo:

  100 ms 200 ms 300 ms 400 ms 500 ms
phone 97% 77% 55% 37% 24%
computadora de escritorio 48% 17% 8% 4% 2%
Porcentaje de orígenes de CrUX en el Top 10,000 clasificados como "pobres" para los umbrales de INP candidatos a partir de mayo de 2022

En dispositivos móviles, un umbral de "deficiente" de 300 ms clasificaría a la mayoría de los sitios populares como "deficientes", lo que estiraría nuestros criterios de accesibilidad, mientras que 500 ms se ajusta mejor al rango del 10% al 30% de los sitios. También se debe tener en cuenta que el umbral de 200 ms “bueno” también es más difícil para estos sitios, pero como el 23% de los sitios aún lo aprueban en dispositivos móviles, aún se cumple con el criterio de tasa mínima del 10%.

Por este motivo, concluimos que 200 ms es un umbral "bueno" razonable para la mayoría de los sitios, y más de 500 ms es un umbral "deficiente" razonable.

Cambio de diseño acumulado

Los umbrales de CLS se establecieron con las siguientes consideraciones de calidad de la experiencia y alcanzabilidad.

Calidad de la experiencia

El cambio de diseño acumulado (CLS) es una métrica nueva que mide cuánto se desplaza el contenido visible de una página. Dado que la CLS es nueva, no tenemos conocimiento de investigaciones que puedan informar directamente los umbrales de esta métrica. Por lo tanto, para identificar un umbral que esté alineado con las expectativas de los usuarios, evaluamos páginas del mundo real con diferentes cantidades de cambio de diseño para determinar la cantidad máxima de cambio que se percibe como aceptable antes de causar interrupciones significativas cuando se consume el contenido de la página. En nuestras pruebas internas, descubrimos que los niveles de cambio de 0.15 y superiores se percibían de manera coherente como disruptivos, mientras que los cambios de 0.1 y menos se notaban, pero no eran excesivamente disruptivos. Por lo tanto, si bien el cambio de diseño cero es ideal, concluimos que los valores de hasta 0.1 son candidatos a umbrales de CLS "buenos".

Alcanzabilidad

En función de los datos de CrUX, podemos ver que casi el 50% de los orígenes tienen un CLS de 0.05 o inferior.

  0.05 0.1 0.15
phone 49% 60% 69%
computadora de escritorio 42% 59% 69%
Porcentaje de orígenes de CrUX clasificados como "buenos" para los umbrales de CLS candidatos a partir de abril de 2020

Si bien los datos de CrUX sugieren que 0.05 podría ser un umbral razonable de CLS “bueno”, reconocemos que hay algunos casos de uso en los que es difícil evitar cambios de diseño disruptivos. Por ejemplo, en el caso del contenido incorporado de terceros, como las incorporaciones en redes sociales, a veces se desconoce la altura del contenido incorporado hasta que termina de cargarse, lo que puede provocar un cambio de diseño superior a 0.05. Por lo tanto, concluimos que, si bien muchos orígenes cumplen con el umbral de 0.05, el umbral de CLS ligeramente menos estricto de 0.1 logra un mejor equilibrio entre la calidad de la experiencia y la posibilidad de alcanzarlo. Esperamos que, en el futuro, el ecosistema web identifique soluciones para abordar los cambios de diseño causados por incorporaciones de terceros, lo que permitiría usar un umbral de CLS "bueno" más estricto de 0.05 o 0 en una iteración futura de los indicadores principales de la Web.

Además, a fin de determinar un umbral "deficiente" para CLS, usamos datos de CrUX para identificar el umbral alcanzado por la mayoría de los orígenes:

  0.15 0.2 0.25 0.3
phone 31% 25% 20% 18%
computadora de escritorio 31% 23% 18% 16%
Porcentaje de orígenes de CrUX clasificados como "deficiente" para los umbrales de CLS candidatos a partir de abril de 2020

Para un umbral de 0.25, aproximadamente el 20% de los orígenes de teléfonos y el 18% de los orígenes de computadoras de escritorio se clasificarían como "pobres". Esto se encuentra dentro de nuestro rango objetivo del 10% al 30%, por lo que concluimos que 0.25 es un umbral "pobre" aceptable.