La ricerca e la metodologia alla base delle soglie di Core Web Vitals
Pubblicata: 21 maggio 2020
I Segnali web essenziali sono un insieme di metriche sul campo che misurano aspetti importanti dell'esperienza utente reale sul web. Core Web Vitals include metriche e soglie target per ogni metrica, che aiutano gli sviluppatori a capire qualitativamente se l'esperienza del loro sito è "buona", "migliorabile" o "scarsa". Questo post spiegherà l'approccio utilizzato per scegliere le soglie per le metriche di Core Web Vitals in generale, nonché come sono state scelte le soglie per ogni metrica specifica di Core Web Vitals.
Aggiornamento: metriche e soglie di Core Web Vitals
Core Web Vitals è composto da tre metriche: Largest Contentful Paint (LCP), Interaction to Next Paint (INP) e Cumulative Layout Shift (CLS). Ogni metrica misura un aspetto diverso dell'esperienza utente: la metrica LCP misura la velocità di caricamento percepita e indica il punto nella sequenza temporale di caricamento della pagina in cui è probabile che i contenuti principali della pagina siano stati caricati; INP misura la reattività e quantifica l'esperienza che gli utenti provano quando provano a interagire con la pagina; inoltre, la metrica CLS misura la stabilità visiva e quantifica la quantità di variazione imprevista del layout dei contenuti della pagina visibili.
A ogni metrica di Core Web Vitals sono associate delle soglie che classificano il rendimento come "buono", "migliorabile" o "scadente":
Buono | Scadente | Percentile | |
---|---|---|---|
visualizzazione elemento più grande | ≤2500 ms | > 4000 ms | 75 |
Interaction to Next Paint | ≤ 200 ms | > 500 ms | 75 |
variazione layout cumulativa | ≤0,1 | > 0,25 | 75 |
Inoltre, per classificare il rendimento complessivo di una pagina o di un sito, utilizziamo il 75° percentile di tutte le visualizzazioni di pagina che rimandano a quella pagina o a quel sito. In altre parole, se almeno il 75% delle visualizzazioni di pagina di un sito raggiunge la soglia "buona", il sito viene classificato come "buono" per quella metrica. Al contrario, se almeno il 25% delle visualizzazioni di pagina raggiunge la soglia "scarso", il sito viene classificato come "scarso". Ad esempio, un LCP del 75° percentile pari a 2 secondi è classificato come "buono", mentre un LCP del 75° percentile pari a 5 secondi è classificato come "scadente".
Criteri per le soglie delle metriche di Core Web Vitals
In questa sezione esamineremo i criteri per valutare le soglie delle metriche di Core Web Vitals. Le sezioni successive descrivono più in dettaglio in che modo sono stati applicati questi criteri per selezionare le soglie per ogni metrica. Negli anni futuri apporteremo miglioramenti e aggiunte ai criteri e alle soglie per migliorare ulteriormente la nostra capacità di misurare esperienze utente eccellenti sul web.
Esperienza utente di alta qualità
Il nostro obiettivo principale è ottimizzare per l'utente e la sua qualità dell'esperienza. Di conseguenza, il nostro obiettivo è garantire che le pagine che soddisfano le soglie "buone" di Core Web Vitals offrano un'esperienza utente di alta qualità.
Per identificare una soglia associata a un'esperienza utente di alta qualità, ci basiamo sulla percezione umana e sulla ricerca sull'HCI. Sebbene a volte questa ricerca venga riassunta utilizzando una singola soglia fissa, abbiamo riscontrato che la ricerca di base è tipicamente espressa come un intervallo di valori. Ad esempio, la ricerca sul tempo che gli utenti in genere aspettano prima di perdere il focus a volte viene descritta come 1 secondo, mentre la ricerca di base è in realtà espressa come un intervallo, da centinaia di millisecondi a più secondi. Il fatto che le soglie di percezione variano a seconda dell'utente e del contesto è ulteriormente supportata dai dati delle metriche di Chrome aggregati e anonimizzati, i quali dimostrano che non esiste un solo tempo di attesa per la visualizzazione dei contenuti di una pagina web prima di interrompere il caricamento della pagina. Questi dati mostrano invece una distribuzione uniforme e continua. Per un esame più approfondito delle soglie di percezione umana e della ricerca HCI pertinente, consulta La scienza alla base di WebVitals.
Nei casi in cui per una determinata metrica sia disponibile una ricerca pertinente sull'esperienza utente e vi sia un ragionevole consenso sull'intervallo di valori in letteratura, utilizziamo questo intervallo come input per guidare il nostro processo di selezione delle soglie. Nei casi in cui non siano disponibili ricerche sull'esperienza utente pertinenti, ad esempio per una nuova metrica come Cumulative Layout Shift, valutiamo invece le pagine reali che soddisfano diverse soglie candidate per una metrica, al fine di identificare una soglia che genera un'esperienza utente positiva.
Raggiungibili tramite i contenuti web esistenti
Inoltre, per garantire che i proprietari dei siti possano ottimizzare i propri siti al fine di raggiungere le soglie "buone", chiediamo che queste soglie siano raggiungibili per i contenuti esistenti sul web. Ad esempio, anche se zero millisecondi è una soglia "buona" LCP ideale, che si traduce in esperienze di caricamento istantaneo, una soglia di zero millisecondi non è praticamente raggiungibile nella maggior parte dei casi, a causa delle latenze di elaborazione della rete e del dispositivo. Di conseguenza, zero millisecondi non rappresentano una soglia LCP "buona" ragionevole per Core Web Vitals.
Quando valutiamo le soglie "buone" di Core Web Vitals, verifichiamo che siano raggiungibili in base ai dati del Rapporto sull'esperienza utente di Chrome (CrUX). Per confermare che una soglia sia raggiungibile, è necessario che almeno il 10% delle origini soddisfi la soglia "buona". Inoltre, per assicurarci che i siti ben ottimizzati non vengano classificati erroneamente a causa della variabilità dei dati sul campo, verifichiamo anche che i contenuti ben ottimizzati soddisfino costantemente la soglia "buona".
Al contrario, stabiliamo la soglia "scadente" identificando un livello di rendimento che solo una minoranza di origini non soddisfa. A meno che non siano disponibili ricerche pertinenti per definire una soglia "scadente", per impostazione predefinita il 10-30% delle origini con il rendimento peggiore viene classificato come "scadente".
Se utilizzare criteri uguali o diversi per dispositivo
L'utilizzo da dispositivi mobili e computer in genere presenta caratteristiche molto diverse in termini di funzionalità dei dispositivi e affidabilità della rete. Ciò influisce notevolmente sui criteri di "raggiungibilità" e suggerisce di prendere in considerazione soglie distinte per ciascuno.
Tuttavia, le aspettative degli utenti in merito a un'esperienza positiva o negativa non dipendono dal dispositivo, anche se i criteri di raggiungibilità sì. Per questo motivo, le soglie consigliate di Core Web Vitals non sono suddivise per dispositivo e viene utilizzata la stessa soglia per entrambi. Questo ha anche il vantaggio di semplificare la comprensione delle soglie.
Inoltre, i dispositivi non sempre rientrano perfettamente in una singola categoria. Dovrebbe essere basato sul fattore di forma del dispositivo, sulla potenza di elaborazione o sulle condizioni della rete? Avere le stesse soglie ha il vantaggio aggiuntivo di evitare questa complessità.
La natura più limitata dei dispositivi mobili fa sì che la maggior parte delle soglie venga impostata in base alla raggiungibilità da dispositivo mobile. È più probabile che rappresentino soglie per i dispositivi mobili, piuttosto che una vera soglia combinata per tutti i tipi di dispositivi. Tuttavia, dato che spesso i dispositivi mobili rappresentano la maggior parte del traffico per la maggior parte dei siti, questo non è un problema.
Considerazioni finali sui criteri
Durante la valutazione delle soglie dei candidati, abbiamo riscontrato che a volte i criteri erano in conflitto tra loro. Ad esempio, può esserci una tensione tra il raggiungimento costante di una soglia e la garanzia di esperienze utente costantemente positive. Inoltre, poiché la ricerca sulla percezione umana in genere fornisce un intervallo di valori e le metriche sul comportamento degli utenti mostrano cambiamenti graduali nel comportamento, abbiamo riscontrato che spesso non esiste una singola soglia "corretta" per una metrica. Pertanto, il nostro approccio per i Core Web Vitals è stato scegliere le soglie che soddisfano al meglio i criteri, pur riconoscendo che non esiste una soglia perfetta e che a volte potrebbe essere necessario scegliere tra più soglie candidate ragionevoli. Invece di chiederci "qual è la soglia perfetta?", ci siamo concentrati sulla domanda "quale soglia candidata soddisfa al meglio i nostri criteri?"
Scelta del percentile
Come indicato in precedenza, per classificare il rendimento complessivo di una pagina o di un sito, utilizziamo il valore del 75° percentile di tutte le visite a quella pagina o a quel sito. Il 75° percentile è stato scelto in base a due criteri. Innanzitutto, il percentile deve garantire che la maggior parte delle visite a una pagina o a un sito abbia raggiunto il livello di rendimento target. In secondo luogo, il valore del percentile scelto non deve essere eccessivamente influenzato dagli outlier.
Questi obiettivi sono in qualche modo in contraddizione tra loro. Per soddisfare il primo obiettivo, un percentile più alto è in genere la scelta migliore. Tuttavia, con percentile più elevati, aumenta anche la probabilità che il valore risultante sia influenzato da valori anomali. Se alcune visite a un sito avvengono su connessioni di rete instabili che generano campioni LCP eccessivamente grandi, non vogliamo che la classificazione del nostro sito venga decisa da questi campioni outlier. Ad esempio, se stessimo valutando le prestazioni di un sito con 100 visite utilizzando un percentile elevato come il 95°, sarebbero necessari solo 5 campioni di outlier affinché il valore del 95° percentile venga influenzato dagli outlier.
Dato che questi obiettivi sono un po' in contraddizione, dopo l'analisi abbiamo concluso che il 75° percentile offre un equilibrio ragionevole. Utilizzando il 75° percentile, sappiamo che la maggior parte delle visite al sito (3 su 4) ha registrato il livello di rendimento target o superiore. Inoltre, il valore del 75° percentile è meno soggetto a essere influenzato dagli outlier. Tornando al nostro esempio, per un sito con 100 visite, 25 di queste visite dovrebbero registrare campioni di valori anomali di grandi dimensioni affinché il valore al 75° percentile sia interessato da valori anomali. Sebbene sia possibile che 25 campioni su 100 siano valori anomali, è molto meno probabile rispetto al caso del 95° percentile.
visualizzazione elemento più grande
Le soglie LCP sono state impostate tenendo conto della qualità dell'esperienza e della raggiungibilità.
Qualità dell'esperienza
Spesso si cita 1 secondo come il tempo che un utente attende prima di iniziare a perdere l'attenzione su un'attività. Da un'analisi più approfondita delle ricerche pertinenti, abbiamo scoperto che 1 secondo è l'approssimazione per descrivere un intervallo di valori, da circa alcune centinaia di millisecondi a diversi secondi.
Due fonti comunemente citate per la soglia di 1 secondo sono Card e altri e Miller. La scheda definisce una soglia di "risposta immediata" di 1 secondo, citando le teorie unificate della cognizione di Newell. Newell definisce le risposte immediate come "risposte che devono essere date a uno stimolo entro circa un secondo (ovvero da circa 0,3 secondi a circa 3 secondi)". Questo si basa sulla discussione di Newell sui "limiti in tempo reale alla cognizione", dove viene notato che "le interazioni con l'ambiente che evocano considerazioni cognitive si verificano nell'ordine dei secondi", che vanno da circa 0,5 a 2-3 secondi. Miller, un'altra fonte comunemente citata per la soglia di 1 secondo, afferma che "le attività che gli esseri umani possono ed eseguono con le comunicazioni con le macchine cambieranno seriamente il loro carattere se i ritardi nella risposta sono superiori a due secondi, con una possibile estensione di un altro secondo circa".
La ricerca di Miller e Card descrive il tempo che un utente attende prima di perdere l'attenzione come un intervallo, da circa 0,3 a 3 secondi, il che suggerisce che la nostra soglia LCP "buona" dovrebbe rientrare in questo intervallo. Inoltre, dato che la soglia "buona" esistente per First Contentful Paint è 1 secondo e che Largest Contentful Paint si verifica in genere dopo First Contentful Paint, abbiamo ulteriormente limitato la nostra gamma di soglie LCP candidate, da 1 secondo a 3 secondi. Per scegliere la soglia di questo intervallo che meglio soddisfa i nostri criteri, consideriamo la fattibilità di queste soglie dei candidati.
Raggiungibilità
Utilizzando i dati di CrUX, possiamo determinare la percentuale di origini sul web che soddisfano le soglie dei candidati LCP "buoni".
1 secondo | 1,5 secondi | 2 secondi | 2,5 secondi | 3 secondi | |
---|---|---|---|---|---|
phone | 3,5% | 13% | 27% | 42% | 55% |
desktop | 6,9% | 19% | 36% | 51% | 64% |
Sebbene meno del 10% delle origini soddisfi la soglia di 1 secondo, tutte le altre soglie da 1,5 a 3 secondi soddisfano il nostro requisito che almeno il 10% delle origini soddisfi la soglia "buona" e sono quindi ancora candidate valide.
Inoltre, per garantire che la soglia scelta sia raggiungibile in modo coerente per i siti ben ottimizzati, analizziamo il rendimento LCP per i siti con il rendimento migliore sul web per determinare quali soglie sono raggiungibili in modo coerente per questi siti. Nello specifico, il nostro obiettivo è identificare una soglia che sia costantemente conseguibile al 75° percentile per i siti con il rendimento migliore. Abbiamo riscontrato che le soglie di 1,5 e 2 secondi non sono sempre raggiungibili, mentre 2,5 secondi sono sempre raggiungibili.
Per identificare una soglia "scadente" per LCP, utilizziamo i dati di CrUX per identificare una soglia soddisfatta dalla maggior parte delle origini:
3 secondi | 3,5 secondi | 4 secondi | 4,5 secondi | 5 secondi | |
---|---|---|---|---|---|
phone | 45% | 35% | 26% | 20% | 15% |
desktop | 36% | 26% | 19% | 14% | 10% |
Per una soglia di 4 secondi, circa il 26% delle origini da telefono e il 21% delle origini da computer verrebbero classificate come scarse. Questo valore rientra nell'intervallo target del 10-30%, pertanto concludiamo che 4 secondi è una soglia "scadente" accettabile.
Pertanto, concludiamo che 2,5 secondi è una soglia ragionevole per "buono" e 4 secondi è una soglia ragionevole per "scadente" per la metrica Largest Contentful Paint.
Interaction to Next Paint
Le soglie INP sono state impostate tenendo conto della qualità dell'esperienza e della raggiungibilità.
Qualità dell'esperienza
La ricerca è ragionevolmente coerente nel concludere che ritardi nel feedback visivo di circa 100 ms sono percepiti come causati da una fonte associata, ad esempio un input dell'utente. Ciò suggerisce che una soglia "buona" per Interaction to Next Paint ideale sarebbe vicina a questa.
L'articolo di Jakob Nielsen Tempi di risposta: i 3 limiti importanti, spesso citato, definisce 0,1 secondo come il limite per far sì che l'utente percepisca che il sistema reagisce istantaneamente. Nielsen cita Miller e Card, che citano La percezione della causalità di Michotte del 1962. Nella ricerca di Michotte, ai partecipanti all'esperimento vengono mostrati "due oggetti su uno schermo. L'oggetto A si avvia e si sposta verso B. Si ferma nel momento in cui entra in contatto con B, mentre quest'ultimo si avvia e si allontana da A." Michotte varia l'intervallo di tempo tra il momento in cui l'oggetto A si ferma e quello in cui l'oggetto B inizia a muoversi. Michotte ha scoperto che, per ritardi fino a circa 100 ms, i partecipanti hanno l'impressione che l'oggetto A causi il movimento dell'oggetto B. Per ritardi da circa 100 ms a 200 ms, la percezione della causalità è mista e, per ritardi superiori a 200 ms, il movimento dell'oggetto B non è più considerato causato dall'oggetto A.
Analogamente, Miller definisce una soglia di risposta per "Risposta all'attivazione del controllo" come "l'indicazione dell'azione data, in genere, dal movimento di un tasto, un interruttore o un altro elemento di controllo che indica che è stato attivato fisicamente. Questa risposta dovrebbe essere percepita come parte dell'azione meccanizzata indotta dall'operatore. Ritardo: non più di 0,1 secondi" e successivamente "il ritardo tra l'attivazione di un tasto e il feedback visivo non deve essere superiore a 0,1-0,2 secondi".
Più di recente, in Towards the Temporally Perfect Virtual Button, Kaaresoja e altri hanno studiato la percezione della simultaneità tra il tocco di un pulsante virtuale su un touchscreen e il successivo feedback visivo che indica che il pulsante è stato toccato, per vari ritardi. Quando il ritardo tra la pressione del pulsante e il feedback visivo era inferiore o uguale a 85 ms, i partecipanti hanno riferito che il feedback visivo appariva contemporaneamente alla pressione del pulsante nel 75% dei casi. Inoltre, per ritardi di massimo 100 ms, i partecipanti hanno segnalato una qualità percepita costantemente elevata della pressione del pulsante, con una qualità percepita in calo per ritardi da 100 a 150 ms e livelli molto bassi per ritardi di 300 ms.
Detto questo, concludiamo che la ricerca indica 100 ms come soglia di interazione con Next Paint "buona" per Web Vitals. Inoltre, poiché gli utenti hanno segnalato livelli di qualità bassi per ritardi pari o superiori a 300 ms, idealmente questa sarebbe la soglia "scarsa".
Raggiungibilità
Utilizzando i dati di CrUX, determiniamo che la maggior parte delle origini sul web soddisfa la soglia "buona" INP di 200 ms al 75° percentile:
100 ms | 200 ms | 300 ms | 400 ms | 500 ms | |
---|---|---|---|---|---|
phone | 12% | 56% | 76% | 88% | 92% |
desktop | 83% | 96% | 98% | 99% | 99% |
Abbiamo inoltre prestato particolare attenzione alla possibilità di trasmettere gli INP per i dispositivi mobili di fascia bassa, che rappresentano una percentuale elevata di visite ai siti. Ciò ha confermato ulteriormente l'idoneità di una soglia di 200 ms.
Tenendo conto della soglia di 100 ms supportata dalla ricerca sulla qualità dell'esperienza e dai criteri di raggiungibilità, concludiamo che 200 ms è una soglia ragionevole per esperienze positive.
Per identificare una soglia "scadente" per LCP, utilizziamo i dati di CrUX per identificare una soglia raggiunta dalla maggior parte delle origini:
100 ms | 200 ms | 300 ms | 400 ms | 500 ms | |
---|---|---|---|---|---|
phone | 88% | 44% | 24% | 12% | 8% |
desktop | 17% | 4% | 2% | 1% | 1% |
Ciò suggerisce che possiamo avere una soglia "scarsa" di 300 ms.
Tuttavia, a differenza di LCP e CLS, l'INP ha una correlazione inversa con la popolarità: i siti più popolari sono spesso più complessi, con una maggiore probabilità di un INP più elevato. Se esaminiamo i 10.000 siti principali, che rappresentano la stragrande maggioranza della navigazione su internet, emerge un quadro più complesso:
100 ms | 200 ms | 300 ms | 400 ms | 500 ms | |
---|---|---|---|---|---|
phone | 97% | 77% | 55% | 37% | 24% |
desktop | 48% | 17% | 8% | 4% | 2% |
Sui dispositivi mobili, una soglia di 300 ms per la valutazione "scadente" classificherebbe la maggior parte dei siti popolari come "scadenti", allungando i nostri criteri di raggiungibilità, mentre 500 ms si adatta meglio all'intervallo del 10-30% dei siti. Inoltre, tieni presente che la soglia "buona" di 200 ms è più difficile da raggiungere anche per questi siti, ma il 23% dei siti supera ancora questo limite sui dispositivi mobili, quindi soddisfa i nostri criteri di percentuale di superamento minima del 10%.
Per questo motivo, abbiamo concluso che 200 ms è una soglia "buona" ragionevole per la maggior parte dei siti, mentre superiore a 500 ms rappresenta una soglia "scarsa" ragionevole.
variazione layout cumulativa
Le soglie CLS sono state impostate in base alle seguenti considerazioni sulla qualità dell'esperienza e sulla realizzabilità.
Qualità dell'esperienza
Cumulative Layout Shift (CLS) è una nuova metrica che misura la variazione dei contenuti visibili di una pagina. Poiché la metrica CLS è nuova, non siamo a conoscenza di studi che possono fornire informazioni dirette sulle soglie per questa metrica. Pertanto, per identificare una soglia in linea con le aspettative degli utenti, abbiamo valutato pagine reali con diversi livelli di variazione del layout, per determinare la quantità massima di variazione che viene percepita come accettabile prima di causare interruzioni significative durante l'utilizzo dei contenuti della pagina. Dai nostri test interni, abbiamo riscontrato che i livelli di spostamento da 0,15 in su sono stati costantemente percepiti come dirompenti, mentre i cambiamenti di 0,1 e più bassi sono stati evidenti, ma non eccessivamente dirompenti. Pertanto, anche se lo spostamento del layout pari a zero è ideale, abbiamo concluso che i valori fino a 0,1 sono candidati come soglie CLS "buone".
Achievability (realizzabilità)
In base ai dati di CrUX, possiamo vedere che quasi il 50% delle origini ha un CLS pari o inferiore a 0,05.
0,05 | 0,1 | 0,15 | |
---|---|---|---|
phone | 49% | 60% | 69% |
desktop | 42% | 59% | 69% |
Sebbene i dati di CrUX suggeriscano che 0,05 potrebbe essere una soglia ragionevole per un CLS "buono", siamo consapevoli che in alcuni casi d'uso è difficile evitare cambiamenti di layout che possono causare interruzioni. Ad esempio, per i contenuti incorporati di terze parti, come gli elementi incorporati dei social media, l'altezza dei contenuti incorporati a volte non è nota fino al termine del caricamento, il che può comportare un cambiamento del layout superiore a 0,05. Pertanto, concludiamo che, sebbene molte origini raggiungano la soglia di 0,05, la soglia CLS leggermente meno rigorosa di 0,1 offre un miglior equilibrio tra qualità dell'esperienza e raggiungibilità. Ci auguriamo che, in futuro, l'ecosistema web identifichi soluzioni per risolvere i cambiamenti di layout causati dagli elementi incorporati di terze parti, il che consentirebbe di utilizzare una soglia "buona" CLS più rigorosa di 0,05 o 0 in una futura iterazione di Core Web Vitals.
Inoltre, per determinare una soglia "scarsa" per CLS, abbiamo utilizzato i dati CrUX per identificare una soglia raggiunta dalla maggior parte delle origini:
0,15 | 0,2 | 0,25 | 0,3 | |
---|---|---|---|---|
phone | 31% | 25% | 20% | 18% |
computer | 31% | 23% | 18% | 16% |
Per una soglia di 0,25, circa il 20% delle origini da telefono e l'18% delle origini da computer viene classificato come "scadente". Questo valore rientra nell'intervallo target del 10-30%, quindi abbiamo concluso che 0,25 è una soglia "scarsa" accettabile.