La investigación y la metodología detrás de los umbrales de las Métricas web esenciales
Las Métricas web esenciales son un conjunto de métricas de campo que miden aspectos importantes de la experiencia del usuario real en la Web. Métricas web esenciales incluye métricas y umbrales objetivo para cada métrica, que ayudan a los desarrolladores a comprender cualitativamente si la experiencia en su sitio es "buena", "necesita mejoras" o "deficiente". En esta publicación, se explicará el enfoque que se usó para elegir los umbrales de las métricas web esenciales en general, así como la forma en que se eligieron los umbrales para cada métrica específica.
Repaso: Métricas y umbrales de las Métricas web esenciales
En 2020, las Métricas web esenciales son tres métricas: Largest Contentful Paint (LCP), Retraso de primera entrada (FID) y Cambio de diseño acumulado (CLS). Cada métrica mide un aspecto diferente de la experiencia del usuario: el LCP mide la velocidad de carga percibida y marca el punto en el cronograma de carga de la página en el que es probable que el contenido principal de la página se haya cargado; FID mide la capacidad de respuesta y cuantifica la experiencia que sienten los usuarios cuando intentan interactuar con la página por primera vez; y CLS mide la estabilidad visual y cuantifica la cantidad de cambios inesperados del diseño del contenido visible de la página.
Cada métrica de las Métricas web esenciales tiene umbrales asociados, que categorizan el rendimiento como "bueno", "necesita mejoras" o "malo":
Bueno | Deficiente | Percentil | |
---|---|---|---|
Procesamiento de imagen con contenido más grande | ≤2,500 ms | >4,000 ms | 75 |
Retraso de primera entrada | ≤100ms | >300 ms | 75 |
Cambio de diseño acumulado | ≤0.1 | >0.25 | 75 |
Además, para clasificar el rendimiento general de una página o sitio, usamos el valor del percentil 75 de todas las vistas de página o sitio. En otras palabras, si al menos un 75% de las páginas vistas de un sitio alcanza el umbral "bueno", se clasifica el sitio como "bueno" para esa métrica. Por el contrario, si al menos el 25% de las páginas vistas alcanza el umbral "deficiente", el sitio se clasifica como "deficiente". Por ejemplo, un LCP del percentil 75 de 2 segundos se clasifica como "bueno", mientras que un LCP del percentil 75 de 5 segundos se clasifica como "deficiente".
Criterios para los umbrales de las métricas de Métricas web esenciales
Cuando establecimos umbrales para las métricas web esenciales, primero identificamos los criterios que debía cumplir cada umbral. A continuación, se explican los criterios que usamos en Google para evaluar los umbrales de las métricas de las Métricas web esenciales de 2020. En las siguientes secciones, se detallará cómo se aplicaron estos criterios para seleccionar los umbrales de cada métrica en 2020. En el futuro, planeamos realizar mejoras y adiciones en los criterios y umbrales para mejorar aún más nuestra capacidad de medir las mejores experiencias del usuario en la Web.
Experiencia del usuario de alta calidad
Nuestro objetivo principal es realizar optimizaciones en función del usuario y la calidad de su experiencia. Por ello, nuestro objetivo es garantizar que las páginas que cumplan con el umbral "Bueno" de las Métricas web esenciales brinden una experiencia del usuario de alta calidad.
Para identificar un umbral asociado con una experiencia del usuario de alta calidad, repasamos la percepción humana y la investigación de HCI. Si bien esta investigación a veces se resume con un solo umbral fijo, descubrimos que la investigación subyacente suele expresarse como un rango de valores. Por ejemplo, la investigación sobre la cantidad de tiempo que los usuarios suelen esperar antes de perder el enfoque a veces se describe como 1 segundo, mientras que la investigación subyacente en realidad se expresa como un rango, de cientos de milisegundos a varios segundos. El hecho de que los umbrales de percepción varían según el usuario y el contexto se respalda aún más con datos de métricas anónimos y agregados de Chrome, que demuestran que los usuarios no esperan que una página web muestre contenido antes de anular la carga de la página. En su lugar, estos datos muestran una distribución fluida y continua. Para obtener información más detallada sobre los umbrales de percepción humana y la investigación relevante de HCI, consulta The Science Behind Web Vitals.
En los casos en los que una investigación relevante de la experiencia del usuario esté disponible para una métrica determinada y haya un consenso razonable sobre el rango de valores en la literatura, usamos este rango como una entrada para guiar nuestro proceso de selección de umbrales. En los casos en los que la investigación relevante de la experiencia del usuario no está disponible, por ejemplo, para una métrica nueva, como el Cambio de diseño acumulado, evaluamos las páginas reales que cumplen con diferentes umbrales de candidatos para una métrica a fin de identificar un umbral que brinde una buena experiencia del usuario.
Alcanzable por el contenido web existente
Además, para garantizar que los propietarios puedan optimizar sus sitios con éxito para alcanzar los umbrales "buenos", exigimos que estos se puedan alcanzar para el contenido existente en la Web. Por ejemplo, si bien cero milisegundos es un umbral ideal de “buena” para LCP, lo que da como resultado experiencias de carga instantáneas, un umbral de cero milisegundos no es factible en la mayoría de los casos debido a las latencias de procesamiento de la red y el dispositivo. Por lo tanto, cero milisegundos no es un umbral razonable de LCP “bueno” para las Métricas web esenciales.
Cuando evaluamos los umbrales “Buenos” de las Métricas web esenciales de los candidatos, verificamos que se puedan alcanzar, en función de los datos del Informe sobre la experiencia del usuario en Chrome (CrUX). Para confirmar que se puede alcanzar un umbral, se requiere que al menos el 10% de los orígenes alcancen el umbral “bueno”. Además, para garantizar que los sitios bien optimizados no se clasifiquen de forma errónea debido a la variabilidad en los datos de los campos, también verificamos que el contenido bien optimizado cumpla de forma coherente el umbral “bueno”.
Por el contrario, establecemos el umbral "deficiente" mediante la identificación de un nivel de rendimiento que solo una minoría de orígenes no alcanza, por el momento, A menos que haya investigaciones relevantes para definir un umbral "deficiente", de forma predeterminada, entre el 10 y el 30% de los orígenes con el peor rendimiento se clasifica como "deficiente".
Reflexiones finales sobre los criterios
Cuando evaluábamos los umbrales de los candidatos, descubrimos que, a veces, los criterios estaban en conflicto entre sí. Por ejemplo, puede haber tensión entre que se puede alcanzar un umbral de manera coherente y si se garantiza que el usuario tenga experiencias del usuario buenas. Además, dado que la investigación de percepción humana suele proporcionar un rango de valores y las métricas de comportamiento de los usuarios muestran cambios graduales en el comportamiento, descubrimos que a menudo no hay un único umbral "correcto" para una métrica. Por lo tanto, nuestro enfoque para las Métricas web esenciales de 2020 ha sido elegir los umbrales que mejor cumplan con los criterios anteriores y reconocer que no hay un umbral perfecto y que, a veces, es posible que debamos elegir entre varios umbrales razonables de candidatos. En lugar de preguntar “¿cuál es el umbral perfecto?”, nos enfocamos en preguntar “¿qué umbral de candidato cumple mejor con nuestros criterios?”.
Elección del percentil
Como se mencionó anteriormente, para clasificar el rendimiento general de una página o sitio, usamos el percentil 75 de todas las visitas a esa página o sitio. El percentil 75 se eligió en función de dos criterios. En primer lugar, el percentil debe garantizar que la mayoría de las visitas a una página o un sitio hayan experimentado el nivel objetivo de rendimiento. En segundo lugar, el valor del percentil elegido no debe verse muy afectado por los valores atípicos.
Estos objetivos no coinciden entre sí. Para satisfacer el primer objetivo, un percentil más alto suele ser una mejor opción. Sin embargo, con percentiles más altos, también aumenta la probabilidad de que el valor resultante se vea afectado por valores atípicos. Si algunas visitas a un sitio tienen conexiones de red inestables que dan como resultado muestras de LCP excesivamente grandes, no queremos que nuestra clasificación del sitio se decida por estas muestras de valores atípicos. Por ejemplo, si estuviéramos evaluando el rendimiento de un sitio con 100 visitas con un percentil alto, como el 95, se necesitarían solo 5 muestras de valores atípicos para que el valor del percentil 95 se vea afectado por los valores atípicos.
Teniendo en cuenta que estos objetivos son un poco en desacuerdo, después del análisis, concluimos que el percentil 75 alcanza un equilibrio razonable. Sabemos que, si usamos el percentil 75, la mayoría de las visitas al sitio (3 de 4) tuvieron el nivel objetivo de rendimiento o uno mejor. Además, es menos probable que el percentil 75 se vea afectado por valores atípicos. Si volvemos a nuestro ejemplo, en el caso de un sitio con 100 visitas, 25 de esas visitas tendrían que informar muestras de valores atípicos grandes para que el valor en el percentil 75 se vea afectado por los valores atípicos. Si bien es posible que 25 de 100 muestras sean atípicos, es mucho menos probable que para el caso del percentil 95.
Procesamiento de imagen con contenido más grande
Calidad de la experiencia
1 segundo a menudo se cita como la cantidad de tiempo que un usuario esperará antes de comenzar a perder el enfoque en una tarea. Tras una inspección más detallada de las investigaciones relevantes, descubrimos que 1 segundo es una aproximación para describir un rango de valores, que puede ser desde varios cientos de milisegundos hasta varios segundos.
Dos fuentes citadas con frecuencia para el umbral de 1 segundo son Card et al y Miller. Card define un umbral de "respuesta inmediata" de 1 segundo, según las Teorías unificadas de la cognición de Newell. Newell explica las respuestas inmediatas como “respuestas que se deben realizar a algún estímulo en aproximadamente un segundo (es decir, aproximadamente de 0.3 s a 3 s aproximadamente)”. Esto sigue al debate de Newell sobre las "restricciones en tiempo real de la cognición", donde se indica que las "interacciones con el entorno que evocan las consideraciones cognitivas" ocurren en segundos, que van de aproximadamente 0.5 a 2 o 3 segundos. Miller, otra fuente citada comúnmente para el umbral de 1 segundo, señala que “las tareas que las personas pueden y realizarán con las comunicaciones de la máquina cambiarán seriamente su carácter si los retrasos en la respuesta son superiores a dos segundos, con una posible extensión de otro segundo aproximadamente”.
La investigación de Miller y Card describe la cantidad de tiempo que un usuario esperará antes de perder el enfoque como un rango, de aproximadamente 0.3 a 3 segundos, lo que sugiere que nuestro umbral “bueno” de LCP debería estar en este rango. Además, dado que el umbral “buena” del primer procesamiento de imagen con contenido es de 1 segundo y que el procesamiento de imagen con contenido más grande suele ocurrir después del primer procesamiento de imagen con contenido, limitamos aún más nuestro rango de umbrales de LCP de candidatos, de 1 segundo a 3 segundos. Para elegir el umbral de este rango que mejor se adapte a nuestros criterios, analizamos la capacidad de estos umbrales de candidatos a continuación.
Capacidad de logro
Con los datos de CrUX, podemos determinar el porcentaje de orígenes en la Web que cumplen con los umbrales “Buenos” de LCP que cumplen con los candidatos.
Porcentaje de orígenes de CrUX clasificados como "Bueno" (para los umbrales de LCP de candidatos)
1 segundo | 1.5 segundos | 2 segundos | 2.5 segundos | 3 segundos | |
---|---|---|---|---|---|
phone | 3.5% | 13% | 27% | 42% | 55% |
computadora de escritorio | 6,9 % | 19% | 36% | 51% | 64% |
Si bien menos del 10% de los orígenes alcanza el umbral de 1 segundo, todos los demás umbrales de 1.5 a 3 segundos satisfacen nuestro requisito de que al menos el 10% de los orígenes cumplen con el umbral "bueno" y, por lo tanto, siguen siendo candidatos válidos.
Además, a fin de garantizar que el umbral elegido se pueda alcanzar de manera coherente para los sitios bien optimizados, analizamos el rendimiento del LCP de los sitios con mejor rendimiento en toda la Web a fin de determinar qué umbrales se pueden alcanzar de manera coherente para estos sitios. Específicamente, buscamos identificar un umbral que se pueda alcanzar de manera constante en el percentil 75 para los sitios con mejor rendimiento. Descubrimos que los umbrales de 1.5 y 2 segundos no se pueden alcanzar de manera coherente, mientras que los 2.5 segundos sí se pueden lograr.
A fin de identificar un umbral "deficiente" para el LCP, usamos los datos de CrUX con el objetivo de identificar un umbral que alcanza la mayoría de los orígenes:
Porcentaje de orígenes de CrUX clasificados como "deficientes" (para los umbrales de LCP de candidatos)
3 segundos | 3.5 segundos | 4 segundos | 4.5 seconds | 5 segundos | |
---|---|---|---|---|---|
phone | 45% | 35% | 26% | 20% | 15% |
computadora de escritorio | 36% | 26% | 19% | 14% | 10% |
Para un umbral de 4 segundos, aproximadamente el 26% de los orígenes de teléfonos y el 21% de los orígenes de computadoras de escritorio se clasificarían como de bajo rendimiento. Esto cae en nuestro rango objetivo de 10 a 30%, por lo que concluimos que 4 segundos es un umbral aceptable de “deficiente”.
Por lo tanto, concluimos que 2.5 segundos es un umbral razonable “bueno” y 4 segundos es un umbral “deficiente” razonable para la métrica Largest Contentful Paint.
Retraso de primera entrada
Calidad de la experiencia
La investigación es razonablemente coherente con la conclusión de que los retrasos en los comentarios visuales de hasta 100 ms se perciben como causados por una fuente asociada, como la entrada del usuario. Esto sugiere que es probable que un umbral “bueno” de 100 ms de retraso de primera entrada sea apropiado como una barra mínima: si el retraso para el procesamiento de la entrada supera los 100 ms, no es posible que otros pasos de procesamiento y renderización se completen a tiempo.
El Tiempo de respuesta: los 3 límites importantes de Jakob Nielsen citado comúnmente por Jakob Nielsen define 0.1 segundo como el límite para que el usuario sienta que el sistema reacciona de forma instantánea. Nielsen menciona a Miller y Card, en el documento de Michotte La percepción de la causalidad de 1962. En la investigación de Michotte, los participantes del experimento ven "dos objetos en una pantalla. El objeto A se inicia y se mueve hacia B. Se detiene en el momento en que entra en contacto con B, mientras que este último comienza y se aleja de A". Michotte varía el intervalo de tiempo entre el momento en que el Objeto A se detiene y el momento en que el Objeto B comienza a moverse. Michotte descubre que, para retrasos de hasta 100 ms, los participantes tienen la impresión de que el Objeto A causa el movimiento del Objeto B. En el caso de retrasos de aproximadamente 100 ms a 200 ms, la percepción de causalidad se mezcla, y en el caso de retrasos de más de 200 ms, el movimiento del Objeto B ya no se considera causado por el Objeto A.
De manera similar, Miller define un umbral de respuesta para “Respuesta para controlar la activación” como “la indicación de acción determinada, ordinariamente, por el movimiento de una tecla, un interruptor o algún otro miembro de control que indica que se activó de forma física. Esta respuesta debe percibirse como parte de la acción mecánica inducida por el operador. Retraso de tiempo: no debe ser superior a 0.1 segundo" y, luego, "el retraso entre la presión de una tecla y la respuesta visual no debe ser de más de 0.1 a 0.2 segundos".
Recientemente, en Towards the Temporally Perfect Virtual Button, Kaaresoja y otros investigaron la percepción de la simultaneidad que existe entre tocar un botón virtual en una pantalla táctil y la posterior información visual que indica que se tocó el botón, en busca de varios retrasos. Cuando el retraso entre presionar el botón y la retroalimentación visual fue de 85 ms o menos, los participantes informaron que los comentarios visuales aparecían simultáneamente cuando se presionaba el botón el 75% de las veces. Además, en el caso de retrasos de 100 ms o menos, los participantes informaron una calidad percibida alta y constante de la pulsación del botón, en la que la calidad percibida disminuye cuando hay demoras de 100 ms a 150 ms y alcanza niveles muy bajos de retrasos de 300 ms.
Teniendo en cuenta lo anterior, concluimos que la investigación apunta a un rango de valores de alrededor de 100 ms como un umbral apropiado del retraso de primera entrada para las Métricas web. Además, dado que los usuarios informaron niveles de calidad bajos para retrasos de 300 ms o más, 300 ms se presenta como un umbral razonable "deficiente".
Capacidad de logro
Con los datos de CrUX, determinamos que la mayoría de los orígenes en la Web cumplen con el umbral “Bueno” de FID de 100 ms en el percentil 75:
Porcentaje de orígenes de CrUX clasificados como "Bueno" para el umbral de 100 ms de FID
100 ms | |
---|---|
phone | 78% |
computadora de escritorio | Más del 99% |
Además, observamos que los sitios principales de la Web pueden alcanzar de forma coherente este umbral en el percentil 75 (y, a menudo, alcanzarlo en el percentil 95).
Teniendo en cuenta lo anterior, concluimos que 100 ms es un umbral “bueno” razonable para FID.
Cambio de diseño acumulado
Calidad de la experiencia
El Cambio de diseño acumulado (CLS) es una métrica nueva que mide cuánto cambia el contenido visible de una página. Dado que el CLS es nuevo, no conocemos investigaciones que puedan informar directamente los umbrales para esta métrica. Por lo tanto, para identificar un umbral que se ajusta a las expectativas de los usuarios, evaluamos páginas reales con diferentes cantidades de cambio de diseño para determinar la cantidad máxima de cambio que se percibe como aceptable antes de causar interrupciones significativas cuando se consume contenido de la página. En nuestras pruebas internas, descubrimos que los niveles de cambio de 0.15 y superiores se perciben de forma constante como disruptivos, mientras que los cambios de 0.1 y inferiores eran notables, pero no excesivamente disruptivos. Por lo tanto, aunque cero cambio de diseño es lo ideal, concluimos que los valores hasta 0.1 son candidatos “buenos” umbrales de CLS.
Capacidad de logro
Según los datos de CrUX, podemos ver que casi el 50% de los orígenes tienen un CLS de 0.05 o inferior.
Porcentaje de orígenes de CrUX clasificados como "Bueno" (para los umbrales de CLS de candidatos)
0.05 | 0.1 | 0.15 | |
---|---|---|---|
phone | 49% | 60% | 69% |
computadora de escritorio | 42% | 59% | 69% |
Si bien los datos de CrUX sugieren que 0.05 podría ser un umbral razonable de CLS "bueno", reconocemos que hay algunos casos de uso en los que, por el momento, es difícil evitar los cambios de diseño disruptivos. Por ejemplo, en el caso del contenido incorporado de terceros, como las incorporaciones en redes sociales, a veces no se conoce la altura del contenido incorporado hasta que termina de cargarse, lo que puede generar un cambio de diseño superior a 0.05. Por lo tanto, concluimos que, si bien muchos orígenes alcanzan el umbral de 0.05, el umbral de CLS un poco menos estricto de 0.1 genera un mejor equilibrio entre la calidad de la experiencia y la viabilidad. Esperamos que, en el futuro, el ecosistema web identifique soluciones para abordar los cambios de diseño causados por incorporaciones de terceros, lo que permitiría usar un umbral “buen” de CLS más estricto de 0.05 o 0 en una iteración futura de Métricas web esenciales.
Además, para determinar un umbral “deficiente” para CLS, usamos datos de CrUX con el objetivo de identificar un umbral que se alcanza con la mayoría de los orígenes:
Porcentaje de orígenes de CrUX clasificados como "deficientes" (para los umbrales de CLS de candidatos)
0.15 | 0.2 | 0.25 | 0.3 | |
---|---|---|---|---|
phone | 31% | 25% | 20% | 18% |
computadora de escritorio | 31% | 23% | 18% | 16% |
Para un umbral de 0.25, alrededor del 20% de los orígenes de teléfonos y el 18% de los orígenes de computadoras se clasificarían como "deficientes". Esto cae en nuestro rango objetivo de 10% a 30%, por lo que concluimos que 0.25 es un umbral aceptable “deficiente”.