Comment les seuils des métriques Core Web Vitals ont été définis

Recherche et méthodologie concernant les seuils des métriques Core Web Vitals

Publié le 21 mai 2020

Les Core Web Vitals sont un ensemble de métriques sur le terrain qui mesurent des aspects importants de l'expérience utilisateur réelle sur le Web. Core Web Vitals inclut des métriques, ainsi que des seuils cibles pour chaque métrique, qui aident les développeurs à comprendre qualitativement si l'expérience proposée par leur site est "bonne", "à améliorer" ou "médiocre". Cet article explique l'approche utilisée pour choisir les seuils des métriques Core Web Vitals en général, ainsi que la manière dont les seuils de chaque métrique Core Web Vitals spécifique ont été choisis.

Rappel : Métriques et seuils Core Web Vitals

Les Core Web Vitals sont trois métriques : Largest Contentful Paint (LCP), Interaction to Next Paint (INP) et Cumulative Layout Shift (CLS). Chaque métrique mesure un aspect différent de l'expérience utilisateur : le LCP mesure la vitesse de chargement perçue et marque le point dans le calendrier de chargement de la page où le contenu principal de la page a probablement été chargé ; l'INP mesure la réactivité et quantifie l'expérience ressentie par les utilisateurs lorsqu'ils tentent d'interagir avec la page ; et le CLS mesure la stabilité visuelle et quantifie la quantité de décalage de mise en page inattendu du contenu visible de la page.

Chaque métrique Core Web Vitals est associée à des seuils qui classent les performances en trois catégories : "Bon", "Amélioration nécessaire" ou "Médiocre" :

Recommandations concernant le seuil Largest Contentful Paint Recommandations de seuil pour Interaction to Next Paint Recommandations concernant le seuil cumulé de décalage de mise en page
  Bonne Médiocre Centile
Largest Contentful Paint ≤2500 ms > 4 000 ms 75
Valeur INP ≤200 ms > 500 ms 75
Cumulative Layout Shift ≤0,1 > 0,25 75
Seuils Core Web Vitals

De plus, pour classer les performances globales d'une page ou d'un site, nous utilisons la valeur du 75e percentile de toutes les pages vues sur cette page ou ce site. En d'autres termes, si au moins 75 % des pages vues d'un site atteignent le seuil "Bon", le site est classé comme ayant de bonnes performances pour cette métrique. À l'inverse, si au moins 25 % des pages vues atteignent le seuil "faible", le site est classé comme ayant des performances "médiocres". Par exemple, un LCP au 75e centile de 2 secondes est classé comme "bon", tandis qu'un LCP au 75e centile de 5 secondes est classé comme "médiocre".

Critères pour les seuils des métriques Core Web Vitals

Dans cette section, nous allons examiner les critères d'évaluation des seuils des métriques Core Web Vitals. Les sections suivantes expliquent plus en détail comment ces critères ont été appliqués pour sélectionner les seuils de chaque métrique. Nous prévoyons d'apporter des améliorations et des ajouts aux critères et aux seuils afin de mieux mesurer les expériences utilisateur de qualité sur le Web.

Expérience utilisateur de haute qualité

Notre objectif principal est d'optimiser l'expérience utilisateur et la qualité de son expérience. Par conséquent, nous voulons nous assurer que les pages qui atteignent les seuils de "bonnes" métriques Core Web Vitals offrent une expérience utilisateur de haute qualité.

Pour identifier un seuil associé à une expérience utilisateur de haute qualité, nous nous intéressons à la perception humaine et à la recherche HCI. Bien que cette recherche soit parfois résumée à l'aide d'un seul seuil fixe, nous constatons que la recherche sous-jacente est généralement exprimée sous la forme d'une plage de valeurs. Par exemple, la recherche sur le temps que les utilisateurs attendent généralement avant de se perdre est parfois décrite comme une seconde, tandis que la recherche sous-jacente est exprimée sous la forme d'une plage allant de plusieurs centaines de millisecondes à plusieurs secondes. Le fait que les seuils de perception varient en fonction de l'utilisateur et du contexte est confirmé par les données de métriques Chrome agrégées et anonymisées, qui montrent qu'il n'existe pas de durée unique d'attente pour que les utilisateurs voient le contenu d'une page Web avant d'interrompre le chargement de la page. Ces données montrent plutôt une distribution fluide et continue. Pour en savoir plus sur les seuils de perception humaine et les recherches pertinentes sur l'IHM, consultez La science derrière les Web Vitals.

Lorsque des recherches pertinentes sur l'expérience utilisateur sont disponibles pour une métrique donnée et qu'il existe un consensus raisonnable sur la plage de valeurs dans la littérature, nous utilisons cette plage comme entrée pour guider notre processus de sélection des seuils. Lorsque des recherches pertinentes sur l'expérience utilisateur ne sont pas disponibles, comme pour une nouvelle métrique telle que le décalage de mise en page cumulé, nous évaluons plutôt des pages réelles qui répondent à différents seuils candidats pour une métrique, afin d'identifier un seuil qui offre une bonne expérience utilisateur.

Réalisables par le contenu Web existant

De plus, pour que les propriétaires de sites puissent optimiser leurs sites afin d'atteindre les seuils "satisfaisants", nous exigeons que ces seuils soient atteignables pour le contenu existant sur le Web. Par exemple, bien que zéro milliseconde soit un seuil "bon" idéal pour le LCP, ce qui permet d'obtenir des expériences de chargement instantanées, un seuil de zéro milliseconde n'est pas réalisable dans la plupart des cas, en raison des latences de traitement du réseau et de l'appareil. Par conséquent, zéro milliseconde n'est pas un seuil raisonnable pour la métrique LCP "Bon" dans Core Web Vitals.

Lorsque nous évaluons les seuils "bons" des métriques Core Web Vitals, nous vérifions qu'ils sont atteignables, en nous appuyant sur les données du rapport d'expérience utilisateur Chrome (CrUX). Pour confirmer qu'un seuil est atteignable, nous exigeons qu'au moins 10 % des origines atteignent le seuil "bon". De plus, pour nous assurer que les sites bien optimisés ne sont pas mal classés en raison de la variabilité des données sur le terrain, nous vérifions également que le contenu bien optimisé atteint systématiquement le seuil "bon".

À l'inverse, nous établissons le seuil "mauvais" en identifiant un niveau de performances que seule une minorité d'origines ne remplit pas. Sauf si des recherches sont disponibles pour définir un seuil de "mauvais", par défaut, les 10 à 30 % des origines les moins performantes sont classées comme "mauvaises".

Indique si les critères doivent être identiques ou différents pour chaque appareil.

L'utilisation des appareils mobiles et des ordinateurs de bureau présente généralement des caractéristiques très différentes en termes de fonctionnalités de l'appareil et de fiabilité du réseau. Cela a un impact important sur les critères de réalisabilité, ce qui suggère que nous devrions utiliser des seuils distincts pour chacun d'eux.

Toutefois, les attentes des utilisateurs concernant une bonne ou une mauvaise expérience ne dépendent pas de l'appareil, même si les critères d'accessibilité le font. C'est pourquoi les seuils recommandés pour les Core Web Vitals ne sont pas répartis par appareil et que le même seuil est utilisé pour les deux. Cela présente également l'avantage de rendre les seuils plus faciles à comprendre.

De plus, les appareils ne se prêtent pas toujours bien à une catégorie. Faut-il tenir compte du facteur de forme de l'appareil, de la puissance de traitement ou des conditions du réseau ? Le fait d'avoir les mêmes seuils permet d'éviter cette complexité.

La nature plus limitée des appareils mobiles signifie que la plupart des seuils sont donc définis en fonction de la faisabilité sur mobile. Ils représentent plus probablement des seuils de mobiles, plutôt qu'un véritable seuil commun pour tous les types d'appareils. Toutefois, étant donné que la plupart des sites enregistrent une majorité de trafic sur mobile, ce problème est moins préoccupant.

Réflexions finales sur les critères

Lors de l'évaluation des seuils candidats, nous avons constaté que les critères étaient parfois en conflit les uns avec les autres. Par exemple, il peut y avoir une tension entre un seuil atteignable de manière cohérente et une expérience utilisateur de qualité constante. De plus, étant donné que la recherche sur la perception humaine fournit généralement une plage de valeurs et que les métriques sur le comportement des utilisateurs montrent des changements progressifs dans le comportement, nous avons constaté qu'il n'existe souvent pas de seuil "correct" unique pour une métrique. Par conséquent, notre approche pour les Core Web Vitals a consisté à choisir les seuils qui répondent le mieux aux critères, tout en reconnaissant qu'il n'existe pas de seuil parfait et que nous pouvons parfois devoir choisir parmi plusieurs seuils candidats raisonnables. Plutôt que de nous demander "Quel est le seuil parfait ?", nous nous sommes concentrés sur la question "Quel seuil candidat répond le mieux à nos critères ?".

Choix du centile

Comme indiqué précédemment, pour classer les performances globales d'une page ou d'un site, nous utilisons la valeur du 75e percentile de toutes les visites de cette page ou de ce site. Le 75e percentile a été choisi en fonction de deux critères. Tout d'abord, le percentile doit s'assurer qu'une majorité de visites d'une page ou d'un site ont atteint le niveau de performances cible. Deuxièmement, la valeur au centile choisi ne doit pas être trop affectée par les valeurs aberrantes.

Ces objectifs sont quelque peu contradictoires. Pour atteindre le premier objectif, un percentile plus élevé est généralement préférable. Toutefois, avec des centiles plus élevés, la probabilité que la valeur résultante soit affectée par des valeurs aberrantes augmente également. Si quelques visites d'un site se produisent sur des connexions réseau instables, ce qui entraîne des échantillons LCP excessivement importants, nous ne voulons pas que la classification de notre site soit déterminée par ces échantillons atypiques. Par exemple, si nous évaluons les performances d'un site avec 100 visites à l'aide d'un centile élevé tel que le 95e, il ne faudra que cinq échantillons d'écarts pour que la valeur du 95e centile soit affectée par les écarts.

Étant donné que ces objectifs sont un peu contradictoires, après analyse, nous avons conclu que le 75e percentile représentait un équilibre raisonnable. En utilisant le 75e centile, nous savons que la plupart des visites sur le site (3 sur 4) ont atteint le niveau de performances cible ou mieux. De plus, la valeur du 75e centile est moins susceptible d'être affectée par des valeurs aberrantes. Pour reprendre notre exemple, pour un site qui enregistre 100 visites, 25 de ces visites doivent générer des échantillons d'écarts importants pour que la valeur au 75e percentile soit affectée par des écarts. Il est possible que 25 échantillons sur 100 soient des valeurs aberrantes, mais c'est beaucoup moins probable que pour le 95e centile.

Largest Contentful Paint

Les seuils du LCP ont été définis en tenant compte des critères suivants concernant la qualité de l'expérience et la réalisabilité.

Qualité de l'expérience

Une seconde est souvent citée comme la durée d'attente d'un utilisateur avant qu'il ne commence à perdre son attention sur une tâche. En examinant de plus près des recherches pertinentes, nous avons découvert qu'une seconde est une approximation pour décrire une plage de valeurs, d'environ plusieurs centaines de millisecondes à plusieurs secondes.

Deux sources couramment citées pour le seuil de 1 seconde sont Card et al. et Miller. Card définit un seuil de "réponse immédiate" de 1 seconde, citant les théories unifiées de la cognition de Newell. Newell définit les réponses immédiates comme "des réponses qui doivent être apportées à un stimulus dans un délai d'environ une seconde (c'est-à-dire entre environ 0,3 et 3 secondes)." Cela fait suite à l'analyse de Newell sur les "contraintes cognitives en temps réel", où il est indiqué que "les interactions avec l'environnement qui évoquent des considérations cognitives se déroulent de l'ordre de quelques secondes", qui vont de 0,5 à 2-3 secondes environ. Miller, une autre source communément citée pour le seuil d'une seconde, note que "les tâches que les humains peuvent et effectueront avec les communications de machine changeront sérieusement leur caractère si les délais de réponse sont supérieurs à deux secondes, avec une extension possible d'une seconde environ".

L'étude de Miller & Card décrit le temps d'attente d'un utilisateur avant de perdre sa concentration sous la forme d'une fourchette, d'environ 0,3 à 3 secondes, ce qui suggère que notre seuil de LCP "satisfaisant" doit se situer dans cette plage. De plus, étant donné que le seuil "bon" existant pour First Contentful Paint est de 1 seconde et que le Largest Contentful Paint se produit généralement après First Contentful Paint, nous limitons davantage notre plage de seuils LCP candidats, de 1 seconde à 3 secondes. Pour choisir le seuil de cette plage qui répond le mieux à nos critères, nous examinons ensuite la faisabilité de ces seuils candidats.

Atteignable

Les données de CrUX nous permettent de déterminer le pourcentage d'origines sur le Web qui atteignent les seuils "satisfaisants" pour le LCP des candidats.

  1 seconde 1,5 seconde 2 secondes 2,5 secondes 3 secondes
phone 3,5 % 13 % 27 % 42 % 55 %
ordinateur 6,9 % 19 % 36 % 51 % 64 %
Pourcentage d'origines CrUX classées comme "bonnes" pour les seuils LCP candidats en avril 2020

Bien que moins de 10 % des origines atteignent le seuil de 1 seconde, tous les autres seuils de 1,5 à 3 secondes répondent à notre exigence selon laquelle au moins 10 % des origines doivent atteindre le seuil "bon". Ils sont donc toujours des candidats valides.

De plus, pour nous assurer que le seuil choisi est toujours atteignable pour les sites bien optimisés, nous analysons les performances du LCP pour les sites les plus performants sur le Web afin de déterminer les seuils qui sont toujours atteignables pour ces sites. Plus précisément, nous cherchons à identifier un seuil qui sera systématiquement atteint au 75e centile pour les sites les plus performants. Nous constatons que les seuils de 1,5 et 2 secondes ne sont pas toujours atteints, tandis que le seuil de 2,5 secondes l'est.

Pour identifier un seuil "mauvais" pour le LCP, nous utilisons les données CrUX pour identifier un seuil atteint par la plupart des origines :

  3 secondes 3,5 secondes 4 secondes 4,5 secondes 5 secondes
phone 45 % 35 % 26 % 20 % 15 %
ordinateur 36 % 26 % 19 % 14 % 10 %
Pourcentage d'origines CrUX classées comme "médiocre" pour les seuils de LCP candidats en avril 2020

Pour un seuil de 4 secondes, environ 26 % des origines de téléphone et 21 % des origines d'ordinateur seraient classées comme médiocres. Ce seuil est compris dans notre plage cible de 10 à 30 %. Nous en déduisons donc que 4 secondes est un seuil "médiocre" acceptable.

Nous concluons donc que 2,5 secondes est un seuil "bon" raisonnable et que 4 secondes est un seuil "mauvais" raisonnable pour le LCP.

Valeur INP

Les seuils INP ont été définis en tenant compte des critères suivants concernant la qualité de l'expérience et la réalisabilité.

Qualité de l'expérience

Les recherches concluent de manière relativement cohérente que les retards de retour visuel pouvant aller jusqu'à environ 100 ms sont perçus comme étant causés par une source associée, telle qu'une entrée utilisateur. Cela suggère qu'un seuil d'interaction "bon" idéal pour la peinture suivante serait proche de celui-ci.

L'article Response Times: The 3 Important Limits (Temps de réponse : les trois limites importantes) de Jakob Nielsen, couramment cité, définit 0,1 seconde comme limite pour que l'utilisateur ait l'impression que le système réagit instantanément. Nielsen cite Miller et Card, qui cite The Perception of Causality (La perception de la causalité) de Michotte, publié en 1962. Dans la recherche de Michotte, les participants à l'expérience voient "deux objets sur un écran. L'objet A se met en route et se dirige vers l'objet B. Elle s'arrête au moment où elle entre en contact avec B, tandis que celle-ci commence et s'éloigne de A." Michotte fait varier l'intervalle de temps entre le moment où l'objet A s'arrête et le moment où l'objet B commence à se déplacer. Michotte constate que, pour des retards allant jusqu'à 100 ms environ, les participants ont l'impression que l'objet A provoque le mouvement de l'objet B. Pour les retards allant de 100 ms à 200 ms environ, la perception de la causalité est mitigée. Pour les retards de plus de 200 ms, le mouvement de l'objet B n'est plus considéré comme ayant été causé par l'objet A.

De même, Miller définit un seuil de réponse pour "Réponse à l'activation du contrôle" comme "l'indication d'une action donnée, généralement, par le mouvement d'une clé, d'un commutateur ou d'un autre membre de contrôle qui indique qu'il a été physiquement activé. Cette réponse doit être perçue comme faisant partie de l'action mécanique induite par l'opérateur. Délai temporel : pas plus de 0,1 seconde", puis "le délai entre l'enfoncement d'une touche et le retour visuel ne doit pas dépasser 0,1 à 0,2 seconde".

Plus récemment, dans Towards the Temporally Perfect Virtual Button, Kaaresoja et d'autres chercheurs ont étudié la perception de la simultanéité entre le toucher d'un bouton virtuel sur un écran tactile et le retour visuel indiquant que le bouton a été touché, pour différents délais. Lorsque le délai entre l'appui sur le bouton et le retour visuel était de 85 ms ou moins, les participants ont indiqué que le retour visuel apparaissait simultanément lorsque l'utilisateur appuie sur le bouton 75% du temps. De plus, pour des retards de 100 ms ou moins, les participants ont indiqué que la qualité perçue du bouton était toujours élevée, avec une baisse de la qualité pour des retards de 100 ms à 150 ms, et des niveaux très bas pour des retards de 300 ms.

Par conséquent, nous concluons que les recherches indiquent que 100 ms est un seuil "satisfaisant" pour l'Interaction to Next Paint dans les métriques Web Vitals. De plus, étant donné que les utilisateurs ont signalé des niveaux de qualité faibles pour des retards de 300 ms ou plus, il s'agit idéalement du seuil de qualité "médiocre".

Atteignabilité

À l'aide des données de CrUX, nous avons déterminé que la majorité des origines sur le Web atteignent le seuil de 200 ms pour l'INP "bon" au 75e percentile :

  100 ms 200 ms 300 ms 400 ms 500 ms
phone 12 % 56 % 76 % 88 % 92 %
ordinateur 83 % 96 % 98 % 99 % 99 %
Pourcentage d'origines CrUX classées comme "bonnes" pour les seuils d'INP candidats en mai 2022

Nous avons également passé une attention particulière à la possibilité de transmettre l'INP pour les appareils mobiles d'entrée de gamme, où ces derniers constituaient une grande proportion des visites sur les sites. Cela a encore confirmé l'adéquation d'un seuil de 200 ms.

Compte tenu du seuil de 100 ms, confirmé par des recherches sur la qualité de l'expérience et les critères d'accessibilité, nous concluons que 200 ms est un seuil raisonnable pour une bonne expérience.

Pour identifier un seuil "mauvais" pour le LCP, nous utilisons les données CrUX afin d'identifier un seuil atteint par la plupart des origines :

  100 ms 200 ms 300 ms 400 ms 500 ms
phone 88 % 44 % 24 % 12 % 8 %
ordinateur 17 % 4 % 2 % 1 % 1 %
Pourcentage d'origines CrUX classées comme "médiocre" pour les seuils d'INP candidats en mai 2022

Cela suggère que nous pouvons avoir un seuil "faible" de 300 ms.

Toutefois, contrairement au LCP et au CLS, l'INP présente une corrélation inverse avec la popularité. Les sites les plus populaires sont souvent plus complexes, ce qui augmente la probabilité d'obtenir un INP plus élevé. Si nous examinons les 10 000 sites les plus populaires, qui représentent la grande majorité de la navigation sur Internet, un tableau plus complexe se dessine :

  100 ms 200 ms 300 ms 400 ms 500 ms
phone 97 % 77 % 55 % 37 % 24 %
ordinateur 48 % 17 % 8 % 4 % 2 %
Pourcentage d'origines CrUX dans les 10 000 premières origines considérées comme "médiocres" pour les seuils d'INP des candidats (mai 2022)

Sur les mobiles, un seuil "faible" de 300 ms indique que la majorité des sites populaires sont "médiocres" étendant nos critères de réalisabilité, tandis qu'un seuil de 500 ms correspond mieux à 10 à 30% des sites. Notez également que le seuil de 200 ms pour une bonne performance est également plus difficile à atteindre pour ces sites. Toutefois, 23 % d'entre eux atteignent toujours ce seuil sur mobile, ce qui correspond à notre critère de taux de réussite minimal de 10 %.

C'est pourquoi nous concluons qu'un seuil de 200 ms est un seuil "bon" raisonnable pour la plupart des sites, et qu'un seuil supérieur à 500 ms est un seuil "mauvais" raisonnable.

Cumulative Layout Shift

Les seuils de CLS ont été définis en tenant compte des considérations suivantes sur la qualité de l'expérience et la faisabilité.

Qualité de l'expérience

Cumulative Layout Shift (CLS) est une nouvelle métrique qui mesure le décalage du contenu visible d'une page. Étant donné que le CLS est nouveau, nous ne connaissons aucune étude pouvant directement informer les seuils de cette métrique. Ainsi, pour identifier un seuil conforme aux attentes des utilisateurs, nous avons évalué les pages réelles présentant différents niveaux de décalage de mise en page afin de déterminer la quantité maximale de décalage perçue comme acceptable avant de provoquer des perturbations importantes lors de la consommation du contenu de la page. Lors de nos tests internes, nous avons constaté que les niveaux de variation de 0,15 et plus étaient systématiquement perçus comme perturbateurs, tandis que les variations de 0,1 et inférieures étaient perceptibles, mais pas excessivement perturbatrices. Ainsi, bien qu'aucun décalage de mise en page ne soit idéal, nous en avons conclu que les valeurs jusqu'à 0,1 sont des seuils CLS de bonne qualité.

Atteignabilité

D'après les données CrUX, près de 50 % des origines ont un CLS de 0,05 ou moins.

  0,05 0,1 0.15
phone 49 % 60 % 69 %
ordinateur 42 % 59 % 69 %
Pourcentage d'origines CrUX classées comme "bonnes" pour les seuils de CLS candidats en avril 2020

Bien que les données CrUX suggèrent que 0,05 peut être un "bon" seuil de CLS raisonnable, nous savons que dans certains cas d'utilisation, il est difficile d'éviter les décalages de mise en page perturbateurs. Par exemple, pour les contenus intégrés tiers, tels que les contenus intégrés sur les réseaux sociaux, la hauteur du contenu intégré n'est parfois pas connue avant la fin du chargement, ce qui peut entraîner un décalage de mise en page supérieur à 0,05. Nous concluons donc que, bien que de nombreuses origines atteignent le seuil de 0,05, le seuil CLS légèrement moins strict de 0,1 offre un meilleur équilibre entre la qualité de l'expérience et la faisabilité. Nous espérons que, à l'avenir, l'écosystème Web identifiera des solutions pour résoudre les changements de mise en page causés par les éléments intégrés tiers, ce qui permettrait d'utiliser un seuil de CLS "bon" plus strict de 0,05 ou 0 dans une future itération des Core Web Vitals.

De plus, pour déterminer un seuil "mauvais" pour le CLS, nous avons utilisé les données CrUX pour identifier un seuil atteint par la plupart des origines :

  0.15 0,2 0,25 0,3
phone 31 % 25 % 20 % 18 %
ordinateur 31 % 23 % 18 % 16 %
Pourcentage d'origines CrUX considérées comme "médiocres" pour les seuils CLS des candidats en avril 2020

Pour un seuil de 0, 25, environ 20% des origines de téléphone et 18% des origines de bureau, seraient classées comme "mauvaises". Cette valeur se situe dans notre plage cible de 10 à 30 %. Nous avons donc conclu que 0,25 était un seuil "mauvais" acceptable.