איך הוגדרו ערכי הסף למדדי הליבה לבדיקת חוויית המשתמש באתר

המחקר והמתודולוגיה שמאחורי ערכי הסף של מדדי הליבה לבדיקת חוויית המשתמש באתר

תאריך פרסום: 21 במאי 2020

מדדי הליבה לבדיקת חוויית המשתמש באתר הם קבוצה של מדדים בשטח שמאפשרים למדוד היבטים חשובים של חוויית המשתמש בפועל באינטרנט. מדדי הליבה לבדיקת חוויית המשתמש באתר כוללים מדדים וגם ערכי סף יעד לכל מדד, שיעזרו למפתחים להבין באופן איכותי אם חוויית המשתמש באתר שלהם היא 'טובה', 'דורשת שיפור' או 'איטית'. במאמר הזה נסביר את הגישה שבה השתמשנו כדי לבחור את ערכי הסף של מדדי הליבה לבדיקת חוויית המשתמש באופן כללי, וגם איך בחרנו את ערכי הסף של כל מדד ספציפי של Core Web Vitals.

סקירה מחודשת: המדדים והסף של Core Web Vitals

מדדי הליבה לבדיקת חוויית המשתמש באתר הם שלושה מדדים: Largest Contentful Paint ‏(LCP),‏ Interaction to Next Paint ‏(INP) ו-Cumulative Layout Shift ‏(CLS). כל מדד מודד היבט אחר של חוויית המשתמש: מדד LCP מודד את מהירות הטעינה שחושבים שהיא הייתה, ומסמן את הנקודה בקו הזמן של טעינת הדף שבה סביר להניח שהתוכן הראשי של הדף נטען. מדד INP מודד את הרספונסיביות ומציג כמותית את החוויה של המשתמשים כשהם מנסים ליצור אינטראקציה עם הדף. מדד CLS מודד את היציבות החזותית ומציג כמותית את מידת התזוזות הבלתי צפויות בפריסת התוכן הגלוי בדף.

לכל מדד של Core Web Vitals יש ערכי סף משויכים, שמאפשרים לסווג את הביצועים כ'טובים', 'דרוש שיפור' או 'איטיים':

המלצות לסף של Largest Contentful Paint (LCP) המלצות לסף של מהירות התגובה לאינטראקציה באתר (INP) המלצות סף של שינוי מצטבר בפריסה
  טוב גרועה מאון
Largest Contentful Paint ‏(LCP) 2,500 אלפיות שנייה לכל היותר יותר מ-4,000 אלפיות שנייה 75
זמן אינטראקציה עד התוכן הבא (INP) ≤200 אלפיות השנייה >500 אלפיות שנייה 75
Cumulative Layout Shift ‏(CLS) 0.1 או פחות >0.25 75
הסף של מדדי הליבה לבדיקת חוויית המשתמש באתר (Core Web Vitals)

בנוסף, כדי לסווג את הביצועים הכוללים של דף או אתר, אנחנו משתמשים בערך של הרבעון ה-75 מתוך כל הצפיות בדף או באתר. במילים אחרות, אם לפחות 75% מצפיות הדפים באתר עומדות בערך הסף 'טוב', האתר מסווג כבעל ביצועים 'טובים' במדד הזה. לעומת זאת, אם לפחות 25% מצפיות הדף עומדות בערך הסף 'גרוע', האתר מסווג כבעל ביצועים 'גרועים'. לדוגמה, LCP של 2 שניות במאון ה-75 מסווג כ'טוב', ואילו LCP של 5 שניות במאון ה-75 מסווג כ'גרוע'.

הקריטריונים לסף של מדדי הליבה לבדיקת חוויית המשתמש באתר

בקטע הזה נסביר על הקריטריונים להערכת ערכי הסף של מדדי Core Web Vitals. בקטעים הבאים נסביר בהרחבה איך הקריטריונים האלה הופעלו כדי לבחור את ערכי הסף לכל מדד. בשנים הבאות אנחנו מתכננים לבצע שיפורים ותוספות לקריטריונים ולערכי הסף כדי לשפר עוד יותר את היכולת שלנו למדוד חוויות משתמש מעולות באינטרנט.

חוויית משתמש באיכות גבוהה

המטרה העיקרית שלנו היא לבצע אופטימיזציה למשתמש ולאיכות החוויה שלו. לכן, אנחנו שואפים להבטיח שדפים שעומדים בתנאי הסף של 'טוב' בדוח המדדים הבסיסיים של חוויית המשתמש מספקים חוויית משתמש באיכות גבוהה.

כדי לזהות את הסף שמשויך לחוויית משתמש באיכות גבוהה, אנחנו מסתמכים על תפיסת האדם ועל מחקר HCI. לפעמים המחקר הזה מסכם באמצעות ערך סף קבוע אחד, אבל אנחנו מוצאים שהמחקר הבסיסי בדרך כלל מתואר כטווח ערכים. לדוגמה, מחקר על משך הזמן הממוצע שבו משתמשים ממתינים לפני שהם מאבדים את המיקוד מתאר לפעמים זמן של שנייה אחת, בעוד שהמחקר הבסיסי מתאר בעצם טווח, החל ממאות אלפיות השנייה ועד כמה שניות. העובדה שספי תפיסה משתנים בהתאם למשתמש ולהקשר נתמכת גם בנתונים מצטברים ואנונימיים של מדדי Chrome, שמראים שאין פרק זמן אחד שבו משתמשים מחכים שדף אינטרנט יציג תוכן לפני ביטול טעינת הדף. במקום זאת, הנתונים האלה מציגים התפלגות חלקה ורציפות. במאמר המדע שמאחורי מדדי Web Vitals מוסבר בהרחבה על ערכי הסף של תפיסת האדם ועל מחקרים רלוונטיים בתחום HCI.

במקרים שבהם יש מחקרים רלוונטיים בנושא חוויית משתמש לגבי מדד נתון, ויש הסכמה סבירה לגבי טווח הערכים בספרות, אנחנו משתמשים בטווח הזה כקלט כדי להנחות את תהליך בחירת הסף. במקרים שבהם אין מחקר רלוונטי לגבי חוויית המשתמש, למשל לגבי מדד חדש כמו 'שינוי מצטבר של הפריסה', אנחנו בוחנים במקום זאת דפים בעולם האמיתי שעומדים בערכי סף שונים של מדד מסוים, כדי לזהות ערך סף שמניב חוויית משתמש טובה.

ניתן להשיג באמצעות תוכן אינטרנט קיים

בנוסף, כדי לוודא שבעלי אתרים יוכלו לבצע אופטימיזציה של האתרים שלהם כדי לעמוד בדרישות הסף ה"טובות", אנחנו דורשים שאפשר יהיה להגיע לרמות הסף האלה לתוכן קיים באינטרנט. לדוגמה, בעוד שאפס אלפיות שנייה הוא סף אידיאלי של LCP 'טוב', שהתוצאה שלו היא חוויות טעינה מיידיות, ברוב המקרים לא ניתן להגיע לסף של אפס אלפיות השנייה בגלל זמני אחזור בעיבוד ברשת ובמכשירים. לכן, אפס אלפיות השנייה הוא לא סף סביר לסטטוס 'טוב' של LCP בדוח המדדים הבסיסיים של חוויית המשתמש (Core Web Vitals).

כשאנחנו בודקים את ערכי הסף האפשריים ל'טוב' במדדי הליבה לבדיקת חוויית המשתמש באתר, אנחנו מוודאים שאפשר להגיע לערכי הסף האלה על סמך נתונים מדוח חוויית המשתמש ב-Chrome (CrUX). כדי לוודא שאפשר להגיע לסף מסוים, אנחנו דורשים שלפחות 10% מהמקורות יעמדו בתנאי הקבלה 'טוב'. בנוסף, כדי לוודא שלא תתבצע סיווג שגוי של אתרים שעברו אופטימיזציה טובה בגלל הבדלים בנתוני השדה, אנחנו גם מוודאים שתוכן שעובר אופטימיזציה טובה עומד בעקביות בסף 'טוב'.

לעומת זאת, אנחנו קובעים את הסף ה'חלש' על ידי זיהוי רמת ביצועים שרק מיעוט מהמקורות לא עומד בה. אם אין מחקר זמין שרלוונטי להגדרת סף 'גרוע', כברירת מחדל, 10%-30% מהמקורות עם הביצועים הגרועים ביותר מסווגים כ'גרועים'.

אם להשתמש בקריטריונים זהים או שונים לכל מכשיר

בדרך כלל, יש מאפיינים שונים מאוד לשימוש בניידים ולשימוש במחשבים, בנוגע ליכולות המכשיר ולאמינות הרשת. הדבר משפיע מאוד על הקריטריונים של 'השגה', ולכן מומלץ להגדיר ערכי סף נפרדים לכל אחד מהם.

עם זאת, הציפיות של המשתמשים לחוויה טובה או גרועה לא תלויות במכשיר, גם אם הקריטריונים להשגת חוויה טובה תלויים במכשיר. לכן, ערכי הסף המומלצים של המדדים הבסיסיים של חוויית המשתמש (Core Web Vitals) לא מופרדים לפי מכשיר, ונעשה שימוש באותו ערך סף בשניהם. גם כאן יש יתרון נוסף – קל יותר להבין את ערכי הסף.

בנוסף, לא תמיד אפשר לשייך מכשירים לקטגוריה אחת. האם הבחירה צריכה להתבסס על גורמים כמו גורם הצורה של המכשיר, עוצמת העיבוד או תנאי הרשת? היתרון הנוסף של שימוש באותם ערכי סף הוא הימנעות מהמורכבות הזו.

מכיוון שמכשירים ניידים מוגבלים יותר, רוב הסף מוגדר על סמך היכולת להשיג אותו בנייד. סביר להניח שהם מייצגים ערכים של ערכי סף בניידים, ולא ערך סף משותף אמיתי בכל סוגי המכשירים. עם זאת, ברוב המקרים מכשירים ניידים הם רוב התנועה ברוב האתרים, ולכן זה פחות מדאיג.

מחשבות סופיות על הקריטריונים

כשבדקנו את ערכי הסף של המועמדים, גילינו שלפעמים הקריטריונים היו בעלי סתירה זה לזה. לדוגמה, יכול להיות מתח בין סף שאפשר להשיג באופן עקבי לבין סף שמבטיח חוויית משתמש טובה באופן עקבי. בנוסף, מחקרים על תפיסת האדם מספקים בדרך כלל טווח ערכים, ומדדי התנהגות המשתמשים מראים שינויים הדרגתיים בהתנהגות, ולכן גילינו שלרוב אין ערך סף יחיד "נכון" למדד. לכן, הגישה שלנו לגבי המדדים הבסיסיים של חוויית המשתמש (Core Web Vitals) הייתה לבחור ערכי סף שעומדים בקריטריונים בצורה הטובה ביותר, תוך הכרה בכך שאין ערך סף מושלם ושעשוי להיות מצב שבו נצטרך לבחור מבין כמה ערכי סף סבירים. במקום לשאול "מהו הסף המושלם?", התמקדנו בשאלה "איזה סף מועמד עונה בצורה הטובה ביותר על הקריטריונים שלנו?"

בחירת האחוזון

כפי שציינו קודם, כדי לסווג את הביצועים הכוללים של דף או אתר, אנחנו משתמשים בערך האחוזון ה-75 של כל הביקורים בדף או באתר. ה-percentile ה-75 נבחר על סמך שני קריטריונים. ראשית, האחוזון צריך לוודא שרוב הביקורים בדף או באתר מדווחים על רמת הביצועים הרצויה. שנית, הערך בפריסנטיל שנבחר לא צריך להיות מושפע יותר מדי מנקודות חריגות.

היעדים האלה מנוגדים זה לזה במידה מסוימת. כדי להשיג את היעד הראשון, בדרך כלל עדיף לבחור אחוזון גבוה יותר. עם זאת, ככל שהפרמטרים של האחוזונים גבוהים יותר, כך עולה גם הסבירות שהערך שייווצר יושפע מערכים חריגים. אם כמה ביקורים באתר מתבצעים דרך חיבורי רשת לא יציבים, וכתוצאה מכך נוצרות דגימות LCP גדולות מדי, אנחנו לא רוצים שהסיווג של האתר יתבסס על הדגימות החריגות האלה. לדוגמה, אם אנחנו מעריכים את הביצועים של אתר עם 100 ביקורים באמצעות אחוזון גבוה כמו ה-95, צריך לקחת רק 5 דגימות חריגות אחרות כדי שערך האחוזון ה-95 יושפע.

בהינתן שהיעדים האלה בעייתיים, אחרי הניתוח הגענו למסקנה שהאחוזון ה-75 מהווה יתרה סבירה. בעזרת השימוש ב-75 percentile, אנחנו יודעים שרוב הביקורים באתר (3 מתוך 4) נהנו מרמת הביצועים היעד או מעל רמת הביצועים היעד. בנוסף, יש סיכוי נמוך יותר שהערך של אחוזון ה-75 יושפע מערכים חריגים. נחזור לדוגמה שלנו: לגבי אתר עם 100 ביקורים, 25 מהביקורים האלה יצטרכו לדווח על דגימות חריגות גדולות עבור הערך באחוזון ה-75 כדי שיושפעו מחריגים. יכול להיות ש-25 מתוך 100 דגימות יהיו חריגות, אבל הסבירות לכך נמוכה בהרבה מאשר במקרה של מאון ה-95.

Largest Contentful Paint ‏(LCP)

ערכי הסף של LCP הוגדרו בהתאם לשיקולים הבאים לגבי איכות חוויית המשתמש והאפשרות להשגה.

איכות חוויית המשתמש

לרוב מציינים שמשך הזמן שהמשתמשים מוכנים להמתין לפני שהם מתחילים לאבד את הריכוז במשימה הוא שנייה אחת. בדקנו לעומק את המחקרים הרלוונטיים וגילינו ש'שנייה אחת' היא קירוב שמתאר טווח ערכים, החל מכמה מאות אלפיות השנייה ועד כמה שניות.

שני מקורות נפוצים לשימוש בערך הסף של שנייה אחת הם Card and others ו-Miller. Card מגדיר ערך סף של 'תגובה מיידית' של שנייה אחת, בהתאם לתאוריות המאוחדות של Newell לגבי קוגניציה. ניואל מסבירה תגובות מיידיות כ"תגובות שחייבות לקבל לגירוי מסוים בתוך שנייה אחת מאוד (כלומר, בערך בין 0.3 שניות ל-3 שניות בערך). המסקנה הזו עוקבת אחרי הדיון של Newell בנושא 'אילוצים בזמן אמת על קוגניציה', שבו צוין ש"אינטראקציות עם הסביבה שמעוררות שיקולים קוגניטיביים מתרחשות בסדר גודל של שניות", שנעות בין כ-0.5 שניות ל-2-3 שניות. Miller, מקור נוסף שמצוטט לעיתים קרובות לגבי הסף של שנייה אחת, מציין ש"משימות שאנשים יכולים לבצע ויבצעו באמצעות תקשורת עם מכונות ישתנו באופן משמעותי אם עיכובי התגובה יהיו יותר משתי שניות, עם אפשרות להארכה של שנייה נוספת בערך".

במחקר של Miller ו-Card מתוארת משך הזמן שהמשתמש ימתין לפני שהוא יאבד את המיקוד, כטווח של כ-0.3 עד 3 שניות. לפי זה, הסף ל-LCP 'טוב' צריך להיות בטווח הזה. בנוסף, מכיוון שהסף הקיים של 'זמן טעינה סביר' של הצגת התוכן הראשוני הוא שנייה אחת, ושהזמן שבו נטען רכיב התוכן הכי גדול מתרחש בדרך כלל אחרי הצגת התוכן הראשוני, צמצמנו עוד יותר את טווח הספים האפשריים של LCP, מ-1 שנייה ל-3 שניות. כדי לבחור את הסף בטווח הזה שעומד בקריטריונים שלנו בצורה הטובה ביותר, צריך לבדוק בשלב הבא את יכולת הקבלה של דרישות הסף האלה.

יכולת להשגה

בעזרת נתונים מ-CrUX, אנחנו יכולים לקבוע את אחוז המקורות באינטרנט שעומדים בערכי הסף ה"טובים" של LCP.

  שנייה אחת 1.5 שניות 2 שניות 2.5 שניות 3 שניות
phone 3.5% 13% 27% 42% 55%
מחשב 6.9% 19% 36% 51% 64%
% מהמקורות ב-CrUX שסווגו כ'טובים' לצורך סף LCP של מועמדים, נכון לאפריל 2020

פחות מ-10% מהמקוריים עומדים בערך הסף של שנייה אחת, אבל כל ערכי הסף האחרים, מ-1.5 עד 3 שניות, עומדים בדרישות שלנו שלפיהן לפחות 10% מהמקוריים צריכים לעמוד בערך הסף 'טוב', ולכן הם עדיין מועמדים תקינים.

בנוסף, כדי לוודא שהסף שנבחר ניתן להשגה באופן עקבי באתרים שעברו אופטימיזציה טובה, אנחנו מנתחים את הביצועים של LCP באתרים עם הביצועים הטובים ביותר באינטרנט, כדי לקבוע אילו ערכי סף ניתן להשיג באופן עקבי באתרים האלה. באופן ספציפי, אנחנו שואפים לזהות ערך סף שאפשר להשיג באופן עקבי ב-75% מהאתרים שמניבים את הביצועים הטובים ביותר. גילינו שאי אפשר להגיע באופן עקבי לסף של 1.5 שניות או 2 שניות, אבל אפשר להגיע לסף של 2.5 שניות באופן עקבי.

כדי לזהות ערך סף של 'גרוע' ל-LCP, אנחנו משתמשים בנתוני CrUX כדי לזהות ערך סף שרוב המקורות עומדים בו:

  3 שניות 3.5 שניות 4 שניות 4.5 שניות ‫5 שניות
phone 45% 35% 26% 20% 15%
desktop 36% 26% 19% 14% 10%
% מהמקורות ב-CrUX שסווגו כ'גרועים' לפי ערכי הסף של LCP נבחרים, נכון לאפריל 2020

אם נגדיר ערך סף של 4 שניות, כ-26% מהמקור בטלפון ו-21% מהמקור במחשב יסווגו כ'איטי'. הערך הזה נמצא בטווח היעד שלנו של 10-30%, ולכן אנחנו מסיקים ש-4 שניות הוא סף מקובל ל'איכות נמוכה'.

לכן, אנחנו מסיקים ש-2.5 שניות הוא סף סביר ל'טוב', ו-4 שניות הוא סף סביר ל'גרוע' במדד Largest Contentful Paint.

זמן אינטראקציה עד התוכן הבא (INP)

ערכי הסף של INP הוגדרו בהתאם לשיקולים הבאים לגבי איכות חוויית המשתמש והאפשרות להשגה:

איכות החוויה

המחקרים מצביעים באופן עקבי על כך שעיכובים בתגובות חזותיות של עד 100 אלפיות השנייה נתפשים כגורמים שמקורם במקור משויך, כמו קלט של משתמש. הנתונים האלה מראים שהסף האידיאלי ל'טוב' של זמן האינטראקציה עד התוכן הבא (INP) יהיה קרוב לזה.

המהירות והמגבלות החשובות של יעקב נילסן מגדירות 0.1 שנייה כמגבלה על כך שהמערכת מגיבה באופן מיידי. Nielsen מצטט את Miller ו-Card, שמצטטים את The Perception of Causality (התפיסה של סיבתיות) מאת Michotte משנת 1962. במחקר של Michotte, למשתתפים בניסוי מוצגים "שני אובייקטים במסך. אובייקט א' מתחיל לנוע לכיוון ב'. הוא מפסיק ברגע שהוא בא במגע עם B, ואז B מתחיל לזוז ומתרחק מ-A". מישוטו משנה את מרווח הזמן בין הזמן שבו אובייקט א' מפסיק לזוז לבין הזמן שבו אובייקט ב' מתחיל לזוז. Michotte מצא שבזמן עיכוב של עד כ-100 אלפיות השנייה, המשתתפים משוכנעים שאובייקט א' גורם לתנועה של אובייקט ב'. במקרים של עיכובים של כ-100 עד 200 אלפיות השנייה, התפיסה של הסיבתיות היא מעורבת, ובמקרים של עיכובים של יותר מ-200 אלפיות השנייה, התנועה של אובייקט ב' כבר לא נתפסת כתנועה שנגרמה על ידי אובייקט א'.

באופן דומה, Miller מגדיר את סף התגובה ל'תגובה להפעלת אמצעי בקרה' כ'האינדיקציה לפעולה, שמתקבלת בדרך כלל באמצעות תנועה של מקש, מתג או רכיב בקרה אחר שמאותת על כך שהוא הופעל פיזית. התגובה הזו צריכה להיחשב… כחלק מהפעולה המכנית שהפעיל ביצע. זמן השהיה: לא יותר מ-0.1 שניות", ולאחר מכן "הזמן שחולף בין לחיצה על מקש לבין משוב חזותי צריך להיות לא יותר מ-0.1 עד 0.2 שניות".

לאחרונה, במאמר Towards the Temporally Perfect Virtual Button, Kaaresoja ואחרים חקרו את התפיסה של בו-זמניות בין מגע בלחצן וירטואלי במסך מגע לבין משוב חזותי שמציין שהלחצן נגע, עם עיכובים שונים. כשהעיכוב בין לחיצה על הלחצן לבין משוב חזותי היה 85 אלפיות השנייה או פחות, המשתתפים דיווחו שהמשוב החזותי הופיע בו-זמנית עם לחיצה על הלחצן ב-75% מהמקרים. בנוסף, בהשהיות של 100 אלפיות שנייה או פחות, המשתתפים דיווחו על איכות נתפסת גבוהה באופן עקבי של לחיצת הלחצן, והאיכות הנתפסת ירדה בהשהיות של 100 אלפיות שנייה עד 150 אלפיות שנייה, והגיעה לרמות נמוכות מאוד בהשהיות של 300 אלפיות שנייה.

על סמך הממצאים האלה, אנחנו מסיקים שהמחקר מצביע על 100 אלפיות השנייה כסף גבול 'טוב' של זמן אינטראקציה עד הצגת התגובה במדדי Web Vitals. בנוסף, מאחר שמשתמשים דיווחו על רמות איכות נמוכות במקרים של עיכובים של 300 אלפיות השנייה או יותר, זהו אידיאל הסף ל'איכות נמוכה'.

יכולת להשגה

על סמך נתונים מ-CrUX, אנחנו קובעים שרוב המקורות באינטרנט עומדים בסף 'טוב' של INP של 200 אלפיות השנייה באחוזון ה-75:

  100 אלפיות השנייה 200 אלפיות השנייה 300 אלפיות השנייה 400 אלפיות השנייה 500 אלפיות השנייה
phone 12% 56% 76% 88% 92%
desktop 83% 96% 98% 99% 99%
% ממקורות CrUX שמסווגים כ'טובים' עבור סף ה-INP של המועמדים נכון למאי 2022

השקענו גם תשומת לב רבה יותר בבדיקת היכולת להעביר INP למכשירים ניידים פשוטים יותר, שבהם שיעור הביקורים באתרים האלו היה גבוה באופן משמעותי. התוצאות האלה אישרו את ההתאמה של ערך הסף של 200 אלפיות השנייה.

בהתחשב בערך הסף של 100 אלפיות השנייה שנתמך במחקרים על איכות חוויית השימוש ובקריטריונים להשגה, הגענו למסקנה ש-200 אלפיות השנייה הוא ערך סף סביר לחוויית שימוש טובה.

כדי לזהות את הסף ל'ביצועים נמוכים' של LCP, אנחנו משתמשים בנתוני CrUX כדי לזהות את הסף שרוב המקורות עומדים בו:

  100 אלפיות השנייה 200 אלפיות השנייה 300 אלפיות השנייה 400 אלפיות השנייה 500 אלפיות השנייה
phone 88% 44% 24% 12% 8%
desktop 17% 4% 2% 1% 1%
% מהמקורות ב-CrUX שסווגו כ'גרועים' לפי ערכי הסף של מועמדים ל-INP נכון למאי 2022

הנתונים האלה מראים שאפשר להגדיר ערך סף של 300 אלפיות השנייה ל'איכות נמוכה'.

עם זאת, בניגוד ל-LCP ול-CLS, ל-INP יש מתאם הפוך עם הפופולריות – בדרך כלל, אתרים פופולריים יותר מורכבים יותר, ולכן יש סיכוי גבוה יותר ל-INP גבוה יותר. כשבודקים את 10,000 האתרים המובילים – שמהווים את רוב גלישה באינטרנט – מתקבלת תמונה מורכבת יותר:

  100 אלפיות השנייה 200 אלפיות השנייה 300 אלפיות השנייה 400 אלפיות השנייה 500 אלפיות השנייה
phone 97% 77% 55% 37% 24%
מחשב 48% 17% 8% 4% 2%
% מתוך כלל מקורות CrUX ב-10,000 המובילים מסווגים כ'חלשים' בערכי INP של מועמדים נכון למאי 2022

במכשירים ניידים, סף 'איטי' של 300 אלפיות השנייה יסווג את רוב האתרים הפופולריים כ'גרועים', בהתאם לקריטריונים שלנו להשגה, ואילו 500 אלפיות השנייה מתאימים יותר לטווח של 10-30% מהאתרים. חשוב גם לציין שהסף של 200 אלפיות השנייה לגבי ציון 'טוב' הוא קשה יותר באתרים האלה, אבל כש-23% מהאתרים עדיין עוברים את ההגדרה הזו בנייד, הוא עדיין עומד בקריטריונים של שיעור מעבר מינימלי של 10%.

לכן אנחנו מסיקים ש-200 אלפיות השנייה הן סף "טוב" עבור רוב האתרים, ומעל 500 אלפיות שנייה הוא סף "גרוע" סביר.

Cumulative Layout Shift ‏(CLS)

ערכי הסף של CLS הוגדרו בהתאם לשיקולים הבאים לגבי איכות חוויית המשתמש והאפשרות להשגת הערך.

איכות חוויית המשתמש

Cumulative Layout Shift (CLS) הוא מדד חדש שמודד את מידת הסטייה של התוכן הגלוי בדף. מדד CLS הוא חדש, ולכן אין לנו נתונים ממחקרים שיכולים להשפיע ישירות על ערכי הסף של המדד הזה. לכן, כדי לזהות סף שתואם לציפיות המשתמשים, הערכנו דפים בעולם האמיתי עם כמויות שונות של שינויי פריסה, כדי לקבוע את מידת השינוי המקסימלית שנתפסת כקבילה לפני שהם גורמים לשיבושים משמעותיים במהלך צריכת תוכן הדף. בבדיקות הפנימיות שלנו מצאנו שרמות של שינוי של 0.15 ומעלה נתפסו באופן עקבי כמפריעות, בעוד ששינוי של 0.1 ומטה היה מורגש אבל לא מפריע באופן קיצוני. לכן, אף על פי ששינוי אפס של הפריסה הוא אידיאלי, הגענו למסקנה שערכים של עד 0.1 הם ערכים 'טובים' של ערכי סף ל-CLS.

יכולת להשגה

על סמך נתוני CrUX, אנחנו יכולים לראות שלכמעט 50% מהמקורות יש מדד CLS של 0.05 או נמוך יותר.

  0.05 0.1 0.15
phone 49% 60% 69%
desktop 42% 59% 69%
% מהמקורות ב-CrUX שסווגו כ'טובים' לפי ערכי הסף של CLS המועמדים, נכון לאפריל 2020

על אף שנתוני CrUX משתמע ש-0.05 עשוי להיות סף סביר ל-CLS, אנחנו מבינים שיש תרחישים לדוגמה שבהם קשה למנוע שינויים משבשים בפריסה. לדוגמה, בתוכן מוטמע של צד שלישי, כמו תוכן מוטמע של רשתות חברתיות, לפעמים גובה התוכן המוטמע לא ידוע עד שהטעינה שלו מסתיימת, מה שעלול להוביל לשינוי פריסה של יותר מ-0.05. לכן, אנחנו מסיקים שגם אם מקורות רבים עומדים בערך הסף של 0.05, ערך הסף של CLS (0.1) שהוא מעט פחות מחמיר יוצר איזון טוב יותר בין איכות חוויית השימוש לבין היכולת להשיג את היעד. אנחנו מקווים שבעתיד סביבות האינטרנט יזהו פתרונות לטיפול בשינויים בפריסה שנגרמים על ידי הטמעות של צד שלישי, וכך יאפשרו להשתמש בערך סף מחמיר יותר של 0.05 או 0 ל-CLS 'טוב' בגרסה עתידית של מדדי הליבה למדדים של אתר אינטרנט.

בנוסף, כדי לקבוע ערך סף של 'גרוע' ל-CLS, השתמשנו בנתוני CrUX כדי לזהות ערך סף שרוב המקורות עומדים בו:

  0.15 0.2 0.25 0.3
phone 31% 25% 20% 18%
desktop 31% 23% 18% 16%
% מהמקורות ב-CrUX שסווגו כ'גרועים' לפי ערכי הסף של CLS לבחירת נכסים, נכון לאפריל 2020

אם נגדיר ערך סף של 0.25, כ-20% מהמקור בטלפון וכ-18% מהמקור במחשב יסווגו כ'גרוע'. הערך הזה נמצא בטווח היעד שלנו של 10-30%, ולכן הגענו למסקנה ש-0.25 הוא סף מקובל ל'גרוע'.