המחקר והמתודולוגיה שמאחורי ערכי הסף של מדדי הליבה לבדיקת חוויית המשתמש באתר
תאריך פרסום: 21 במאי 2020
מדדי הליבה לבדיקת חוויית המשתמש באתר הם קבוצה של מדדים בשטח שמאפשרים למדוד היבטים חשובים של חוויית המשתמש בפועל באינטרנט. מדדי הליבה לבדיקת חוויית המשתמש באתר כוללים מדדים וגם ערכי סף יעד לכל מדד, שיעזרו למפתחים להבין באופן איכותי אם חוויית המשתמש באתר שלהם היא 'טובה', 'דורשת שיפור' או 'איטית'. במאמר הזה נסביר את הגישה שבה השתמשנו כדי לבחור את ערכי הסף של מדדי הליבה לבדיקת חוויית המשתמש באתר באופן כללי, וגם איך בחרנו את ערכי הסף של כל מדד ספציפי של Core Web Vitals.
סקירה מחודשת: מדדים וערכי סף של Core Web Vitals
מדדי הליבה לבדיקת חוויית המשתמש באתר הם שלושה מדדים: Largest Contentful Paint (LCP), Interaction to Next Paint (INP) ו-Cumulative Layout Shift (CLS). כל מדד מודד היבט אחר של חוויית המשתמש: מדד LCP מודד את מהירות הטעינה שחווים המשתמשים ומציין את הנקודה בזמן הטעינה של הדף שבה סביר להניח שהתוכן הראשי של הדף נטען. מדד INP מודד את הרספונסיביות ומציין באופן כמותי את חוויית המשתמש כשהם מנסים ליצור אינטראקציה עם הדף. מדד CLS מודד את היציבות החזותית ומציין באופן כמותי את מידת התזוזות הבלתי צפויות בפריסת התוכן הגלוי בדף.
לכל מדד של Core Web Vitals יש ערכי סף משויכים, שמאפשרים לסווג את הביצועים כ'טובים', 'דרוש שיפור' או 'איטיים':
טוב | גרועה | מאון | |
---|---|---|---|
Largest Contentful Paint (LCP) | ≤2500 ms | יותר מ-4,000 אלפיות שנייה | 75 |
זמן אינטראקציה עד התוכן הבא (INP) | ≤200 אלפיות השנייה | >500 אלפיות שנייה | 75 |
Cumulative Layout Shift (CLS) | ≤0.1 | >0.25 | 75 |
בנוסף, כדי לסווג את הביצועים הכוללים של דף או אתר, אנחנו משתמשים בערך של הרבעון ה-75 מתוך כל הצפיות בדף או באתר. במילים אחרות, אם לפחות 75% מצפיות הדפים באתר עומדות בערך הסף 'טוב', האתר מסווג כבעל ביצועים 'טובים' במדד הזה. לעומת זאת, אם לפחות 25% מצפיות הדף עומדות בערך הסף 'גרוע', האתר מסווג כבעל ביצועים 'גרועים'. לדוגמה, LCP של 2 שניות במאון ה-75 מסווג כ'טוב', ואילו LCP של 5 שניות במאון ה-75 מסווג כ'גרוע'.
הקריטריונים לסף של מדדי הליבה לבדיקת חוויית המשתמש באתר
בקטע הזה נסביר על הקריטריונים להערכת ערכי הסף של מדדי Core Web Vitals. בקטעים הבאים נסביר בהרחבה איך הקריטריונים האלה הופעלו כדי לבחור את ערכי הסף לכל מדד. בשנים הבאות אנחנו צפויים לבצע שיפורים ולהוסיף קריטריונים וערכי סף כדי לשפר עוד יותר את היכולת שלנו למדוד חוויות משתמש מעולות באינטרנט.
חוויית משתמש באיכות גבוהה
המטרה העיקרית שלנו היא לבצע אופטימיזציה למשתמש ולאיכות החוויה שלו. לכן, אנחנו שואפים להבטיח שדפים שעומדים בערכי הסף של 'טוב' במדדים הבסיסיים של חוויית המשתמש מספקים חוויית משתמש באיכות גבוהה.
כדי לזהות את הסף שמשויך לחוויית משתמש באיכות גבוהה, אנחנו מסתמכים על תובנות לגבי תפיסת האדם ועל מחקר HCI. לפעמים המחקר הזה מסכם באמצעות ערך סף קבוע אחד, אבל אנחנו מוצאים שהמחקר הבסיסי בדרך כלל מתואר כטווח ערכים. לדוגמה, מחקר על משך הזמן הממוצע שבו משתמשים ממתינים לפני שהם מאבדים את המיקוד מתאר לפעמים זמן של שנייה אחת, בעוד שהמחקר הבסיסי מתאר בעצם טווח, החל ממאות אלפיות השנייה ועד כמה שניות. העובדה שסכומי הסף של התפיסה משתנים בהתאם למשתמש ולהקשר נתמכת גם על ידי נתוני מדדים מצטברים ואנונימיים של Chrome, שמראים שאין זמן אחיד שבו משתמשים ממתינים להצגת תוכן בדף אינטרנט לפני שהם משביתים את טעינת הדף. במקום זאת, הנתונים האלה מציגים התפלגות חלקה ורציפות. למידע מעמיק יותר על ערכי הסף של תפיסת האדם ועל מחקר רלוונטי בנושא HCI, אפשר לעיין במאמר המדע שמאחורי מדדי Web Vitals.
במקרים שבהם יש מחקרים רלוונטיים בנושא חוויית משתמש לגבי מדד נתון, ויש הסכמה סבירה לגבי טווח הערכים בספרות, אנחנו משתמשים בטווח הזה כקלט כדי להנחות את תהליך בחירת הסף. במקרים שבהם אין מחקר רלוונטי לגבי חוויית המשתמש, למשל לגבי מדד חדש כמו 'שינוי מצטבר של הפריסה', אנחנו בוחנים במקום זאת דפים בעולם האמיתי שעומדים בערכי סף שונים של מדד מסוים, כדי לזהות ערך סף שמניב חוויית משתמש טובה.
ניתן להשיג באמצעות תוכן אינטרנט קיים
בנוסף, כדי לוודא שבעלי אתרים יכולים לבצע אופטימיזציה של האתרים שלהם כך שיתאימו לסף 'טוב', אנחנו דורשים שהסף הזה יהיה אפשרי להגיע אליו לגבי תוכן קיים באינטרנט. לדוגמה, אף על פי ש-0 אלפיות השנייה הוא סף 'טוב' אידיאלי ל-LCP, שמתבטא בחוויית טעינה מיידית, אי אפשר להשיג סף של 0 אלפיות השנייה בפועל ברוב המקרים, בגלל זמני האחזור של הרשת ועיבוד המכשיר. לכן, אפס אלפיות השנייה הוא לא ערך סביר לסף 'טוב' של LCP בדוח המדדים הבסיסיים של חוויית המשתמש (Core Web Vitals).
כשאנחנו בודקים את ערכי הסף האפשריים ל'טוב' של מדדי הליבה לבדיקת חוויית המשתמש באתר, אנחנו מוודאים שאפשר להגיע לערכי הסף האלה על סמך נתונים מדוח חוויית המשתמש ב-Chrome (CrUX). כדי לוודא שאפשר להגיע לסף מסוים, אנחנו דורשים ש-10% לפחות ממקורות הנתונים יעמדו בסף 'טוב'. בנוסף, כדי לוודא שלא תתבצע סיווג שגוי של אתרים שעברו אופטימיזציה טובה בגלל הבדלים בנתוני השדה, אנחנו גם מוודאים שהתוכן שעובר אופטימיזציה טובה עומד בעקביות בסף 'טוב'.
לעומת זאת, אנחנו מגדירים את הסף 'גרוע' על ידי זיהוי רמת ביצועים שרק מיעוט מקורות לא עומד בה. אם אין מחקר זמין שרלוונטי להגדרת הסף 'גרוע', כברירת מחדל, 10%-30% מהמקורות עם הביצועים הגרועים ביותר מסווגים כ'גרועים'.
אם להשתמש באותם קריטריונים לכל מכשיר או בקריטריונים שונים לכל מכשיר
בדרך כלל, יש מאפיינים שונים מאוד לשימוש בניידים ולשימוש במחשבים, בנוגע ליכולות המכשיר ולאמינות הרשת. הדבר משפיע מאוד על הקריטריונים של 'השגה', ולכן מומלץ להגדיר ערכי סף נפרדים לכל אחד מהם.
עם זאת, הציפיות של המשתמשים לחוויה טובה או גרועה לא תלויות במכשיר, גם אם הקריטריונים להשגת חוויה טובה תלויים במכשיר. לכן, ערכי הסף המומלצים של המדדים הבסיסיים של חוויית המשתמש (Core Web Vitals) לא מופרדים לפי מכשיר, ואותו ערך סף משמש לשניהם. בנוסף, כך קל יותר להבין את ערכי הסף.
בנוסף, לא תמיד אפשר לשייך מכשירים לקטגוריה אחת. האם הבחירה צריכה להתבסס על גורמים כמו גורם הצורה של המכשיר, עוצמת העיבוד או תנאי הרשת? היתרון הנוסף של שימוש באותם ערכי סף הוא הימנעות מהמורכבות הזו.
מכיוון שמכשירים ניידים מוגבלים יותר, רוב הסף מוגדר על סמך היכולת להשיג אותו בנייד. סביר להניח שהם מייצגים ערכים של ערכי סף בניידים, ולא ערך סף משותף אמיתי בכל סוגי המכשירים. עם זאת, מכיוון שבדרך כלל רוב התנועה ברוב האתרים מגיעה מניידים, הבעיה הזו פחות רלוונטית.
מסקנות סופיות לגבי הקריטריונים
כשבדקנו את ערכי הסף של המועמדים, גילינו שלפעמים הקריטריונים היו בעלי סתירה זה לזה. לדוגמה, יכול להיות מתח בין סף שאפשר להשיג באופן עקבי לבין סף שמבטיח חוויית משתמש טובה באופן עקבי. בנוסף, מאחר שמחקרים על תפיסת האדם מספקים בדרך כלל טווח ערכים, ומדדי התנהגות המשתמשים מראים שינויים הדרגתיים בהתנהגות, גילינו שלרוב אין ערך סף יחיד "נכון" למדד. לכן, הגישה שלנו לגבי המדדים הבסיסיים של חוויית המשתמש (Core Web Vitals) הייתה לבחור ערכי סף שעומדים בצורה הטובה ביותר בקריטריונים, תוך הכרה בכך שאין ערך סף מושלם ושעשוי להיות מצב שבו נצטרך לבחור מבין כמה ערכי סף סבירים. במקום לשאול "מהו הסף המושלם?", התמקדנו בשאלה "איזה סף מתאים ביותר כדי לעמוד בקריטריונים שלנו?"
בחירת אחוזון
כפי שצוין קודם, כדי לסווג את הביצועים הכוללים של דף או אתר, אנחנו משתמשים בערך הפיריסנטיל ה-75 של כל הביקורים בדף או באתר. ה-percentile ה-75 נבחר על סמך שני קריטריונים. ראשית, אחוזון צריך להבטיח שרוב הביקורים בדף או באתר נהנו מרמת הביצועים המטורגטת. שנית, הערך בפריסנטיל שנבחר לא צריך להיות מושפע יותר מדי מנקודות חריגות.
היעדים האלה מנוגדים זה לזה במידה מסוימת. כדי לעמוד ביעד הראשון, בדרך כלל עדיף לבחור אחוזון גבוה יותר. עם זאת, ככל שהפרמטרים של האחוזונים גבוהים יותר, כך גדל הסיכוי שהערך שייווצר יושפע מערכים חריגים. אם כמה ביקורים באתר מתבצעים דרך חיבורי רשת לא יציבים, וכתוצאה מכך נוצרות דגימות LCP גדולות מדי, אנחנו לא רוצים שהסיווג של האתר יתבסס על הדגימות החריגות האלה. לדוגמה, אם היינו מעריכים את הביצועים של אתר עם 100 ביקורים באמצעות אחוזון גבוה כמו אחוזון 95, יספיקו רק 5 דגימות של ערכים חריגים כדי שהערך של אחוזון 95 יושפע מהערכים החריגים.
מאחר שהיעדים האלה מנוגדים במקצת, אחרי ניתוח הגענו למסקנה שמדד ה-75 percentile משיג איזון סביר. בעזרת השימוש ב-75 percentile, אנחנו יודעים שרוב הביקורים באתר (3 מתוך 4) נהנו מרמת הביצועים היעד או מעל רמת הביצועים היעד. בנוסף, יש סיכוי נמוך יותר שהערך של אחוזון ה-75 יושפע מערכים חריגים. נחזור לדוגמה שלנו: באתר עם 100 ביקורים, 25 מהביקורים האלה יצטרכו לדווח על דגימות גדולות של ערכים חריגים כדי שהערך ב-75 percentile יושפע מערכים חריגים. יכול להיות ש-25 מתוך 100 דגימות יהיו חריגות, אבל הסבירות לכך נמוכה בהרבה מאשר במקרה של מאון ה-95.
Largest Contentful Paint (LCP)
ערכי הסף של LCP הוגדרו בהתאם לשיקולים הבאים לגבי איכות חוויית המשתמש והאפשרות להשגת היעד.
איכות חוויית המשתמש
לרוב, משתמשים מוכנים להמתין שנייה אחת לפני שהם מתחילים לאבד את הריכוז במשימה. בדקנו לעומק את המחקרים הרלוונטיים וגילינו ש'שנייה אחת' היא קירוב שמתאר טווח ערכים, החל מכמה מאות אלפיות השנייה ועד כמה שניות.
שני מקורות נפוצים לשימוש ב-1 שניות כסףור הם Card and others ו-Miller. Card מגדיר ערך סף של 'תגובה מיידית' של שנייה אחת, בהתאם לתאוריות המאוחדות של Newell לגבי קוגניציה. Newell מסביר שהתגובות המיידיות הן "תגובות שצריך לתת לגירוי כלשהו תוך כמעט שנייה (כלומר, בערך מ-0.3 שניות עד 3 שניות). המסקנה הזו עוקבת אחרי הדיון של Newell בנושא 'אילוצים בזמן אמת על קוגניציה', שבו צוין ש"אינטראקציות עם הסביבה שמעוררות שיקולים קוגניטיביים מתרחשות בסדר גודל של שניות", שנעות בין כ-0.5 שניות ל-2-3 שניות. Miller, מקור נוסף שמצוטט לעיתים קרובות לגבי הסף של שנייה אחת, מציין ש "משימות שאנשים יכולים לבצע ויבצעו באמצעות תקשורת עם מכונות ישתנו באופן משמעותי אם עיכובי התגובה יהיו יותר משתי שניות, עם אפשרות להארכה של שנייה נוספת בערך".
במחקר של Miller ו-Card מתוארת משך הזמן שהמשתמש ימתין לפני שהוא יאבד את המיקוד, כטווח של כ-0.3 עד 3 שניות. לפי זה, הסף ל-LCP 'טוב' צריך להיות בטווח הזה. בנוסף, מכיוון שהסף הקיים של 'זמן טעינה סביר' של הצגת תוכן ראשוני הוא שנייה אחת, ושהזמן שבו מתרחשת הצגת התוכן הכי גדול הוא בדרך כלל אחרי הצגת התוכן הראשוני, צמצמנו עוד יותר את טווח הספים האפשריים של LCP, מ-1 שנייה ל-3 שניות. כדי לבחור את הסף בטווח הזה שהכי עומד בקריטריונים שלנו, אנחנו בודקים את האפשרות להשיג את ערכי הסף האלה.
יכולת השגה
בעזרת נתונים מ-CrUX, אנחנו יכולים לקבוע את אחוז המקורות באינטרנט שעומדים בערכי הסף של 'טוב' ל-LCP.
שנייה אחת | 1.5 שניות | 2 שניות | 2.5 שניות | 3 שניות | |
---|---|---|---|---|---|
phone | 3.5% | 13% | 27% | 42% | 55% |
desktop | 6.9% | 19% | 36% | 51% | 64% |
פחות מ-10% מהמקורות עומדים בערך הסף של שנייה אחת, אבל כל ערכי הסף האחרים, מ-1.5 עד 3 שניות, עומדים בדרישות שלנו שלפיהן לפחות 10% מהמקורות צריכים לעמוד בערך הסף 'טוב', ולכן הם עדיין מועמדים תקינים.
בנוסף, כדי לוודא שהסף שנבחר ניתן להשגה באופן עקבי באתרים שעברו אופטימיזציה טובה, אנחנו מנתחים את ביצועי LCP באתרים עם הביצועים הטובים ביותר באינטרנט, כדי לקבוע אילו ערכי סף ניתן להשיג באופן עקבי באתרים האלה. באופן ספציפי, אנחנו שואפים לזהות ערך סף שאפשר להשיג באופן עקבי ב-75% מהאתרים שמניבים את הביצועים הטובים ביותר. גילינו שאי אפשר להגיע באופן עקבי לסף של 1.5 שניות או 2 שניות, אבל אפשר להגיע לסף של 2.5 שניות באופן עקבי.
כדי לזהות ערך סף של 'גרוע' ל-LCP, אנחנו משתמשים בנתוני CrUX כדי לזהות ערך סף שרוב המקורות עומדים בו:
3 שניות | 3.5 שניות | 4 שניות | 4.5 שניות | 5 שניות | |
---|---|---|---|---|---|
phone | 45% | 35% | 26% | 20% | 15% |
desktop | 36% | 26% | 19% | 14% | 10% |
אם נגדיר ערך סף של 4 שניות, כ-26% מהמקור בטלפון ו-21% מהמקור במחשב יסווגו כ'איטי'. הערך הזה נמצא בטווח היעד שלנו של 10-30%, ולכן אנחנו מסיקים ש-4 שניות הוא סף מקובל ל'איכות נמוכה'.
לכן, אנחנו מסיקים ש-2.5 שניות הוא סף סביר ל'טוב', ו-4 שניות הוא סף סביר ל'גרוע' במדד Largest Contentful Paint.
זמן אינטראקציה עד התוכן הבא (INP)
ערכי הסף של INP הוגדרו בהתאם לשיקולים הבאים לגבי איכות חוויית המשתמש והאפשרות להשגה:
איכות חוויית המשתמש
המחקרים מצביעים באופן עקבי על כך שעיכובים בתגובות חזותיות של עד 100 אלפיות השנייה נתפשים כגורמים שמקורם במקור משויך, כמו קלט של משתמש. הנתונים האלה מראים שהסף האידיאלי של 'מהירות תגובה טובה' לאינטראקציה באתר (INP) יהיה קרוב לנתון הזה.
במאמר Response Times: The 3 Important Limits של Jakob Nielsen, שמוזכר לעיתים קרובות, מוגדר זמן של 0.1 שנייה כזמן שבו המשתמש מרגיש שהמערכת מגיבה באופן מיידי. Nielsen מצטט את Miller ו-Card, שמציגים את המאמר של Michotte משנת 1962, The Perception of Causality. במחקר של Michotte, למשתתפים בניסוי מוצגים "שני אובייקטים במסך. אובייקט א' מתחיל לנוע לכיוון ב'. הוא מפסיק ברגע שהוא בא במגע עם B, ואז B מתחיל לזוז ומתרחק מ-A". מישוטו משנה את מרווח הזמן בין הזמן שבו אובייקט א' מפסיק לזוז לבין הזמן שבו אובייקט ב' מתחיל לזוז. Michotte מצא שבזמן עיכוב של עד כ-100 אלפיות השנייה, המשתתפים סבורים שאובייקט א' גורם לתנועה של אובייקט ב'. במקרים של עיכובים של כ-100 עד 200 אלפיות השנייה, התפיסה של הסיבתיות היא מעורבת, ובמקרים של עיכובים של יותר מ-200 אלפיות השנייה, התנועה של אובייקט ב' כבר לא נתפסת כתנועה שנגרמה על ידי אובייקט א'.
באופן דומה, Miller מגדיר את סף התגובה ל'תגובה להפעלת אמצעי בקרה' כ'האינדיקציה לפעולה, שמתקבלת בדרך כלל באמצעות תנועה של מקש, מתג או אמצעי בקרה אחר, שמאותת על כך שהוא הופעל פיזית. התגובה הזו צריכה להיחשב… כחלק מהפעולה המכנית שהפעיל ביצע. זמן השהיה: לא יותר מ-0.1 שנייה", ולאחר מכן "הזמן שחולף בין הלחיצה על מקש לבין המשוב החזותי צריך להיות לא יותר מ-0.1 עד 0.2 שניות".
לאחרונה, במאמר Towards the Temporally Perfect Virtual Button, Kaaresoja ואחרים חקרו את התפיסה של בו-זמניות בין מגע בכפתור וירטואלי במסך מגע לבין משוב חזותי שמציין שהכפתור נגע, עבור עיכובים שונים. כשהעיכוב בין לחיצה על הלחצן לבין משוב חזותי היה 85 אלפיות השנייה או פחות, המשתתפים דיווחו שהמשוב החזותי הופיע בו-זמנית עם לחיצה על הלחצן ב-75% מהמקרים. בנוסף, בהשהיות של 100 אלפיות שנייה או פחות, המשתתפים דיווחו על איכות נתפסת גבוהה באופן עקבי של לחיצת הלחצן, והאיכות הנתפסת ירדה בהשהיות של 100 אלפיות שנייה עד 150 אלפיות שנייה, והגיעה לרמות נמוכות מאוד בהשהיות של 300 אלפיות שנייה.
על סמך הממצאים האלה, אנחנו מסיקים שהמחקר מצביע על 100 אלפיות השנייה כסף גבול 'טוב' של זמן אינטראקציה עד הצגת התגובה במדדי Web Vitals. בנוסף, מאחר שמשתמשים דיווחו על רמות איכות נמוכות במקרים של עיכובים של 300 אלפיות השנייה או יותר, זהו אידיאל הסף ל'איכות נמוכה'.
יכולת השגה
על סמך נתונים מ-CrUX, אנחנו קובעים שרוב המקורות באינטרנט עומדים בערך הסף של 200 אלפיות השנייה ל-INP 'טוב' ב-75% העליונים:
100 אלפיות השנייה | 200 אלפיות השנייה | 300 אלפיות השנייה | 400 אלפיות השנייה | 500 אלפיות השנייה | |
---|---|---|---|---|---|
phone | 12% | 56% | 76% | 88% | 92% |
desktop | 83% | 96% | 98% | 99% | 99% |
בנוסף, הקדשנו תשומת לב מיוחדת לאפשרות של שליחת INP במכשירים ניידים ברמה נמוכה יותר, שבהם המכשירים האלה היוו חלק גדול מהביקורים באתרים. התוצאות האלה אישרו את ההתאמה של סף של 200 אלפיות השנייה.
בהתחשב בערך הסף של 100 אלפיות השנייה שנתמך במחקרים על איכות חוויית השימוש ובקריטריונים להשגה, הגענו למסקנה ש-200 אלפיות השנייה הוא ערך סף סביר לחוויית שימוש טובה.
כדי לזהות את הסף ל'ביצועים נמוכים' של LCP, אנחנו משתמשים בנתוני CrUX כדי לזהות את הסף שרוב המקורות עומדים בו:
100 אלפיות השנייה | 200 אלפיות השנייה | 300 אלפיות השנייה | 400 אלפיות השנייה | 500 אלפיות השנייה | |
---|---|---|---|---|---|
phone | 88% | 44% | 24% | 12% | 8% |
desktop | 17% | 4% | 2% | 1% | 1% |
הנתונים האלה מראים שאפשר להגדיר ערך סף של 300 אלפיות השנייה ל'איכות נמוכה'.
עם זאת, בניגוד ל-LCP ול-CLS, ל-INP יש מתאם הפוך עם הפופולריות – בדרך כלל, אתרים פופולריים יותר מורכבים יותר, ולכן יש סיכוי גבוה יותר ל-INP גבוה יותר. כשבודקים את 10,000 האתרים המובילים – שמהווים את רוב גלישה באינטרנט – מתקבלת תמונה מורכבת יותר:
100 אלפיות השנייה | 200 אלפיות השנייה | 300 אלפיות השנייה | 400 אלפיות השנייה | 500 אלפיות השנייה | |
---|---|---|---|---|---|
phone | 97% | 77% | 55% | 37% | 24% |
desktop | 48% | 17% | 8% | 4% | 2% |
בנייד, סף של 300 אלפיות השנייה ל'ביצועים נמוכים' יסיווג את רוב האתרים הפופולריים כ'ביצועים נמוכים', ויגרום למתיחות בקריטריונים שלנו להשגת הביצועים. לעומת זאת, סף של 500 אלפיות השנייה מתאים יותר לטווח של 10-30% מהאתרים. חשוב גם לציין שהסף של 200 אלפיות השנייה ל'ביצועים טובים' הוא גם קשה יותר לאתרים האלה, אבל 23% מהאתרים עדיין עומדים בו בנייד, כך שהוא עדיין עומד בקריטריון שלנו של שיעור צלחה מינימלי של 10%.
לכן, הגענו למסקנה ש-200 אלפיות השנייה הם ערך סף סביר ל'טוב' ברוב האתרים, וזמן של יותר מ-500 אלפיות השנייה הוא ערך סף סביר ל'גרוע'.
Cumulative Layout Shift (CLS)
ערכי הסף של CLS הוגדרו בהתאם לשיקולים הבאים לגבי איכות חוויית המשתמש והאפשרות להשגת הערך.
איכות חוויית המשתמש
מדד Cumulative Layout Shift (CLS) הוא מדד חדש שמודד את מידת התזוזות של התוכן הגלוי בדף. מאחר שמדד CLS חדש, אין לנו נתונים על מחקרים שיכולים לספק מידע ישיר לגבי ערכי הסף של המדד הזה. לכן, כדי לזהות ערך סף שתואם לציפיות של המשתמשים, בדקנו דפים בעולם האמיתי עם שינויים שונים בפריסה, כדי לקבוע את מידת השינוי המקסימלית שנתפסת כסבירה לפני שהיא גורמת להפרעות משמעותיות בקריאת תוכן הדף. בבדיקות הפנימיות שלנו מצאנו שרמות של שינוי של 0.15 ומעלה נתפסו באופן עקבי כהפרעה, בעוד ששינוי של 0.1 ומטה היה מורגש אבל לא הפריע בצורה קיצונית. לכן, אף על פי ששינוי אפס של הפריסה הוא אידיאלי, הגענו למסקנה שערכים של עד 0.1 הם ערכים מועמדים לסף CLS 'טוב'.
יכולת השגה
על סמך נתוני CrUX, אנחנו יכולים לראות שלכמעט 50% מהמקורות יש מדד CLS של 0.05 או נמוך יותר.
0.05 | 0.1 | 0.15 | |
---|---|---|---|
phone | 49% | 60% | 69% |
desktop | 42% | 59% | 69% |
על סמך נתוני CrUX, הערך 0.05 עשוי להיות סף סביר ל-CLS 'טוב', אבל אנחנו מבינים שיש תרחישים לדוגמה שבהם קשה להימנע משינויים מפריעים בפריסת הדף. לדוגמה, בתוכן מוטמע של צד שלישי, כמו תוכן מוטמע של רשתות חברתיות, לפעמים גובה התוכן המוטמע לא ידוע עד לסיום הטעינה שלו, מה שעלול להוביל לשינוי פריסה של יותר מ-0.05. לכן, אנחנו מסיקים שגם אם מקורות רבים עומדים בערך הסף של 0.05, ערך הסף של CLS (0.1) שהוא פחות מחמיר מעט, מאפשר איזון טוב יותר בין איכות חוויית השימוש לבין היכולת להשיג את היעד. אנחנו מקווים שבעתיד סביבות האינטרנט יזהו פתרונות לטיפול בשינויים בפריסה שנגרמים על ידי הטמעות של צד שלישי, וכך יאפשרו להשתמש בערך סף מחמיר יותר של 0.05 או 0 ל-CLS 'טוב' בגרסה עתידית של מדדי הליבה למדדים של אתר אינטרנט.
בנוסף, כדי לקבוע ערך סף של 'גרוע' ל-CLS, השתמשנו בנתוני CrUX כדי לזהות ערך סף שרוב המקורות עומדים בו:
0.15 | 0.2 | 0.25 | 0.3 | |
---|---|---|---|---|
phone | 31% | 25% | 20% | 18% |
desktop | 31% | 23% | 18% | 16% |
אם נגדיר ערך סף של 0.25, כ-20% מהמקור בטלפון וכ-18% מהמקור במחשב יסווגו כ'גרוע'. הערך הזה נמצא בטווח היעד שלנו של 10-30%, ולכן הגענו למסקנה ש-0.25 הוא סף מקובל ל'גרוע'.