Nghiên cứu và phương pháp đằng sau ngưỡng Các chỉ số quan trọng về trang web
Ngày xuất bản: 21 tháng 5 năm 2020
Các chỉ số quan trọng về trang web là một nhóm các chỉ số thực địa đo lường các khía cạnh quan trọng của trải nghiệm người dùng thực tế trên web. Core Web Vitals bao gồm các chỉ số cũng như ngưỡng mục tiêu cho từng chỉ số, giúp nhà phát triển hiểu được chất lượng trải nghiệm trên trang web của họ là "tốt", "cần cải thiện" hay "kém". Bài đăng này sẽ giải thích phương pháp dùng để chọn ngưỡng cho các chỉ số Core Web Vitals nói chung, cũng như cách chọn ngưỡng của từng chỉ số Core Web Vitals cụ thể.
Bài ôn tập: Các chỉ số và ngưỡng của Core Web Vitals
Các chỉ số quan trọng về trang web bao gồm 3 chỉ số: Nội dung lớn nhất hiển thị (LCP), Lượt tương tác với Lần hiển thị tiếp theo (INP) và Điểm số thay đổi bố cục tích luỹ (CLS). Mỗi chỉ số đo lường một khía cạnh khác nhau trong trải nghiệm người dùng: LCP đo lường tốc độ tải mà người dùng nhận thấy và đánh dấu điểm trong tiến trình tải trang khi nội dung chính của trang có thể đã tải; INP đo lường khả năng phản hồi và định lượng trải nghiệm mà người dùng cảm nhận được khi cố gắng tương tác với trang; còn CLS đo lường độ ổn định của hình ảnh và định lượng mức độ thay đổi bố cục không mong muốn của nội dung trang hiển thị.
Mỗi chỉ số về Các chỉ số quan trọng về trang web đều có các ngưỡng liên quan, giúp phân loại hiệu suất thành "tốt", "cần cải thiện" hoặc "kém":
Tốt | Kém | Phân vị | |
---|---|---|---|
Thời gian hiển thị nội dung lớn nhất | ≤2500 mili giây | > 4000 mili giây | 75 |
Lượt tương tác đến nội dung hiển thị tiếp theo | ≤ 200 mili giây | >500 mili giây | 75 |
Điểm số tổng hợp về mức thay đổi bố cục | ≤0,1 | > 0,25 | 75 |
Ngoài ra, để phân loại hiệu suất tổng thể của một trang hoặc trang web, chúng tôi sử dụng giá trị phân vị thứ 75 của tất cả lượt xem trang cho trang hoặc trang web đó. Nói cách khác, nếu ít nhất 75% số lượt xem trang của một trang web đáp ứng ngưỡng "tốt", thì trang web đó được phân loại là có hiệu suất "tốt" cho chỉ số đó. Ngược lại, nếu ít nhất 25% số lượt xem trang đáp ứng ngưỡng "kém", thì trang web đó sẽ được phân loại là có hiệu suất "kém". Ví dụ: LCP ở phân vị thứ 75 của 2 giây được phân loại là "tốt", trong khi LCP ở phân vị thứ 75 của 5 giây được phân loại là "kém".
Tiêu chí cho ngưỡng chỉ số Core Web Vitals
Trong phần này, chúng ta sẽ xem xét các tiêu chí để đánh giá ngưỡng chỉ số Core Web Vitals. Các phần tiếp theo sẽ trình bày chi tiết hơn về cách áp dụng các tiêu chí này để chọn ngưỡng cho từng chỉ số. Trong những năm tới, chúng tôi dự kiến sẽ cải tiến và bổ sung các tiêu chí và ngưỡng để nâng cao hơn nữa khả năng đo lường trải nghiệm chất lượng cao của người dùng trên web.
Trải nghiệm người dùng chất lượng cao
Mục tiêu chính của chúng tôi là tối ưu hoá cho người dùng và chất lượng trải nghiệm của họ. Do đó, chúng tôi muốn đảm bảo rằng những trang đáp ứng ngưỡng "tốt" của Chỉ số quan trọng chính của trang web sẽ mang lại trải nghiệm chất lượng cao cho người dùng.
Để xác định ngưỡng liên quan đến trải nghiệm chất lượng cao cho người dùng, chúng tôi xem xét nhận thức của con người và nghiên cứu về HCI. Mặc dù nghiên cứu này đôi khi được tóm tắt bằng một ngưỡng cố định duy nhất, nhưng chúng tôi thấy rằng nghiên cứu cơ bản thường được biểu thị dưới dạng một phạm vi giá trị. Ví dụ: nghiên cứu về khoảng thời gian mà người dùng thường chờ trước khi mất tiêu điểm đôi khi được mô tả là 1 giây, trong khi nghiên cứu cơ bản thực sự được biểu thị dưới dạng một khoảng, từ hàng trăm mili giây đến nhiều giây. Trên thực tế, ngưỡng nhận thức sẽ khác nhau tuỳ thuộc vào người dùng và bối cảnh dựa trên dữ liệu chỉ số tổng hợp và ẩn danh của Chrome. Dữ liệu này cho thấy rằng không có một khoảng thời gian nào người dùng phải chờ một trang web hiển thị nội dung trước khi huỷ tải trang. Thay vào đó, dữ liệu này cho thấy sự phân phối mượt mà và liên tục. Để tìm hiểu sâu hơn về ngưỡng nhận thức của con người và nghiên cứu HCI có liên quan, hãy xem bài viết Khoa học đằng sau chỉ số Vitals trên web.
Trong trường hợp có nghiên cứu liên quan về trải nghiệm người dùng cho một chỉ số nhất định và có sự đồng thuận hợp lý về phạm vi giá trị trong tài liệu, chúng tôi sẽ sử dụng phạm vi này làm dữ liệu đầu vào để hướng dẫn quy trình lựa chọn ngưỡng. Trong trường hợp không có nghiên cứu liên quan đến trải nghiệm người dùng, chẳng hạn như đối với một chỉ số mới như Điểm số thay đổi bố cục tích luỹ, chúng tôi sẽ đánh giá các trang thực tế đáp ứng các ngưỡng đề xuất khác nhau cho một chỉ số, để xác định ngưỡng mang lại trải nghiệm tốt cho người dùng.
Có thể đạt được bằng nội dung web hiện có
Ngoài ra, để đảm bảo rằng chủ sở hữu trang web có thể thành công trong việc tối ưu hoá trang web của họ để đáp ứng các ngưỡng "tốt", chúng tôi yêu cầu các ngưỡng này phải đạt được đối với nội dung hiện có trên web. Ví dụ: mặc dù 0 mili giây là ngưỡng LCP "tốt" lý tưởng, mang lại trải nghiệm tải tức thì, nhưng trong hầu hết các trường hợp, bạn không thể đạt được ngưỡng 0 mili giây do độ trễ trong quá trình xử lý mạng và thiết bị. Do đó, 0 mili giây không phải là ngưỡng "tốt" hợp lý cho LCP đối với Core Web Vitals.
Khi đánh giá các ngưỡng "tốt" của Chỉ số quan trọng chính của trang web, chúng tôi xác minh rằng các ngưỡng đó có thể đạt được dựa trên dữ liệu từ Báo cáo trải nghiệm người dùng trên Chrome (CrUX). Để xác nhận rằng bạn có thể đạt được một ngưỡng, chúng tôi yêu cầu ít nhất 10% nguồn gốc phải đáp ứng ngưỡng "tốt". Ngoài ra, để đảm bảo rằng các trang web được tối ưu hoá tốt không bị phân loại sai do sự biến động trong dữ liệu thực địa, chúng tôi cũng xác minh rằng nội dung được tối ưu hoá tốt luôn đáp ứng ngưỡng "tốt".
Ngược lại, chúng tôi thiết lập ngưỡng "kém" bằng cách xác định mức hiệu suất mà chỉ một số ít nguồn gốc không đáp ứng được. Trừ phi có nghiên cứu có liên quan đến việc xác định ngưỡng "kém", theo mặc định, 10-30% nguồn gốc có hiệu suất kém nhất sẽ được phân loại là "kém".
Có nên sử dụng cùng một tiêu chí hay tiêu chí khác nhau cho mỗi thiết bị không
Mức sử dụng trên thiết bị di động và máy tính thường có những đặc điểm rất khác nhau về khả năng của thiết bị và độ tin cậy của mạng. Điều này ảnh hưởng rất lớn đến tiêu chí "khả năng đạt được", vì vậy, chúng ta nên xem xét các ngưỡng riêng biệt cho từng tiêu chí.
Tuy nhiên, kỳ vọng của người dùng về trải nghiệm tốt hay tệ không phụ thuộc vào thiết bị, ngay cả khi tiêu chí về khả năng đạt được là như vậy. Vì lý do này, các ngưỡng đề xuất trong Các chỉ số quan trọng về trang web không được phân tách theo thiết bị và cùng một ngưỡng được áp dụng cho cả hai. Điều này cũng giúp cho các ngưỡng dễ hiểu hơn.
Ngoài ra, các thiết bị không phải lúc nào cũng phù hợp với một danh mục. Liệu điều này có nên dựa trên kiểu dáng thiết bị, sức mạnh xử lý hay điều kiện mạng không? Việc có cùng ngưỡng sẽ giúp bạn tránh được sự phức tạp đó.
Do thiết bị di động có nhiều hạn chế hơn, nên hầu hết các ngưỡng đều được đặt dựa trên khả năng đạt được trên thiết bị di động. Các ngưỡng này có nhiều khả năng đại diện cho ngưỡng trên thiết bị di động hơn là ngưỡng chung thực sự trên tất cả các loại thiết bị. Tuy nhiên, do thiết bị di động thường chiếm phần lớn lưu lượng truy cập của hầu hết các trang web, nên điều này không đáng lo ngại.
Suy nghĩ cuối cùng về tiêu chí
Khi đánh giá ngưỡng đề xuất, chúng tôi nhận thấy rằng các tiêu chí đôi khi xung đột với nhau. Ví dụ: có thể có sự căng thẳng giữa ngưỡng đạt được một cách nhất quán và đảm bảo trải nghiệm người dùng luôn tốt. Ngoài ra, do nghiên cứu về nhận thức của con người thường cung cấp một dải giá trị và các chỉ số hành vi của người dùng cho thấy sự thay đổi dần dần về hành vi, nên chúng tôi nhận thấy thường không có ngưỡng "chính xác" duy nhất cho một chỉ số. Do đó, phương pháp của chúng tôi đối với Các chỉ số quan trọng về trang web là chọn các ngưỡng đáp ứng tốt nhất các tiêu chí, đồng thời nhận thấy rằng không có ngưỡng nào hoàn hảo và đôi khi chúng ta có thể cần phải chọn trong số nhiều ngưỡng đề xuất hợp lý. Thay vì hỏi "ngưỡng hoàn hảo là bao nhiêu?", chúng tôi tập trung vào việc hỏi "ngưỡng đề xuất nào đạt được tiêu chí của chúng tôi tốt nhất?"
Lựa chọn phân vị
Như đã lưu ý trước đó, để phân loại hiệu suất tổng thể của một trang hoặc trang web, chúng tôi sử dụng giá trị phân vị thứ 75 của tất cả các lượt truy cập vào trang hoặc trang web đó. Phân vị thứ 75 được chọn dựa trên hai tiêu chí. Thứ nhất, phân vị phải đảm bảo rằng phần lớn lượt truy cập vào một trang hoặc trang web đều đạt được mức hiệu suất mục tiêu. Thứ hai, giá trị ở phân vị đã chọn không được chịu ảnh hưởng quá lớn của các giá trị ngoại lai.
Các mục tiêu này có phần mâu thuẫn với nhau. Để đáp ứng mục tiêu đầu tiên, thường tốt hơn là nên chọn phân vị cao hơn. Tuy nhiên, với các phân vị cao hơn, khả năng giá trị thu được bị ảnh hưởng bởi các giá trị ngoại lai cũng tăng lên. Nếu một vài lượt truy cập vào một trang web xảy ra trên các kết nối mạng không ổn định dẫn đến các mẫu LCP quá lớn, thì chúng tôi không muốn việc phân loại trang web của mình bị quyết định bởi các mẫu ngoại lai này. Ví dụ: nếu chúng ta đang đánh giá hiệu suất của một trang web có 100 lượt truy cập bằng cách sử dụng một phân vị cao như phân vị thứ 95, thì chỉ cần 5 mẫu ngoại lai để giá trị phân vị thứ 95 bị ảnh hưởng bởi các mẫu ngoại lai.
Do các mục tiêu này hơi khác nhau, sau khi phân tích, chúng tôi kết luận rằng phân vị thứ 75 đạt được sự cân bằng hợp lý. Bằng cách sử dụng phân vị thứ 75, chúng tôi biết rằng hầu hết các lượt truy cập vào trang web (3/4) đều đạt được mức hiệu suất mục tiêu trở lên. Ngoài ra, giá trị phân vị thứ 75 có ít khả năng bị các điểm ngoại lai ảnh hưởng hơn. Quay lại ví dụ của chúng ta, đối với một trang web có 100 lượt truy cập, 25 trong số các lượt truy cập đó cần báo cáo mẫu ngoại lai lớn để giá trị ở phân vị thứ 75 bị ảnh hưởng bởi ngoại lai. Mặc dù có thể có 25 trên 100 mẫu là giá trị ngoại lệ, nhưng khả năng này là ít hơn nhiều so với trường hợp tại phân vị thứ 95.
Thời gian hiển thị nội dung lớn nhất
Ngưỡng LCP được thiết lập dựa trên những yếu tố cần cân nhắc về chất lượng trải nghiệm và khả năng đạt được như sau.
Chất lượng trải nghiệm
1 giây thường được coi là khoảng thời gian người dùng sẽ chờ trước khi họ bắt đầu mất tập trung vào một nhiệm vụ. Khi kiểm tra kỹ hơn các nghiên cứu có liên quan, chúng tôi nhận thấy rằng 1 giây là giá trị gần đúng để mô tả một phạm vi giá trị, từ khoảng vài trăm mili giây đến vài giây.
Hai nguồn thường được trích dẫn cho ngưỡng 1 giây là Card và các nguồn khác và Miller. Thẻ xác định ngưỡng "phản hồi ngay lập tức" trong 1 giây, trích dẫn bài viết Hợp nhất theo lý thuyết nhận thức của Newell. Newell giải thích phản hồi tức thì là "phản hồi phải được thực hiện đối với một số kích thích trong vòng khoảng một giây (tức là từ khoảng 0,3 giây đến khoảng 3 giây)." Điều này là theo nội dung thảo luận của Newell về "các quy tắc ràng buộc theo thời gian thực đối với nhận thức", trong đó lưu ý rằng "các hoạt động tương tác với môi trường gợi ra các cân nhắc nhận thức diễn ra theo thứ tự giây", dao động từ khoảng 0,5 giây đến 2-3 giây. Miller, một nguồn khác thường được trích dẫn cho ngưỡng 1 giây, lưu ý rằng "các nhiệm vụ mà con người có thể và sẽ thực hiện bằng giao tiếp bằng máy sẽ thay đổi nghiêm trọng tính cách của họ nếu độ trễ phản hồi lớn hơn 2 giây, có thể kéo dài thêm một giây nữa".
Nghiên cứu của Miller và Card mô tả khoảng thời gian người dùng sẽ chờ trước khi mất tiêu điểm dưới dạng một phạm vi, từ khoảng 0,3 đến 3 giây. Điều này cho thấy ngưỡng LCP "tốt" của chúng ta phải nằm trong phạm vi này. Ngoài ra, do ngưỡng "tốt" hiện tại của LCP đầu tiên là 1 giây và LCP lớn nhất thường xảy ra sau LCP đầu tiên, nên chúng tôi sẽ hạn chế thêm phạm vi ngưỡng LCP đề xuất, từ 1 giây đến 3 giây. Để chọn ngưỡng trong phạm vi này đáp ứng tốt nhất tiêu chí của chúng ta, tiếp theo, chúng ta sẽ xem xét khả năng đạt được các ngưỡng đề xuất này.
Khả năng đạt được
Bằng cách sử dụng dữ liệu từ CrUX, chúng tôi có thể xác định tỷ lệ phần trăm nguồn gốc trên web đáp ứng ngưỡng "tốt" LCP của ứng viên.
1 giây | 1,5 giây | 2 giây | 2,5 giây | 3 giây | |
---|---|---|---|---|---|
phone | 3,5% | 13% | 27% | 42% | 55% |
máy tính | 6,9% | 19% | 36% | 51% | 64% |
Mặc dù chưa đến 10% số nguồn gốc đáp ứng ngưỡng 1 giây, nhưng tất cả các ngưỡng khác từ 1,5 đến 3 giây đều đáp ứng yêu cầu của chúng tôi là ít nhất 10% số nguồn gốc đáp ứng ngưỡng "tốt", do đó vẫn là các đề xuất hợp lệ.
Ngoài ra, để đảm bảo rằng ngưỡng đã chọn luôn đạt được đối với các trang web được tối ưu hoá tốt, chúng tôi phân tích hiệu suất LCP cho các trang web hoạt động hiệu quả nhất trên web để xác định ngưỡng nào luôn đạt được đối với các trang web này. Cụ thể, chúng tôi muốn xác định một ngưỡng có thể đạt được luôn ở phân vị thứ 75 cho các trang web có hiệu suất hàng đầu. Chúng tôi thấy rằng không phải lúc nào cũng đạt được các ngưỡng 1,5 và 2 giây, trong khi có thể đạt được 2,5 giây.
Để xác định ngưỡng "kém" cho LCP, chúng tôi sử dụng dữ liệu CrUX để xác định ngưỡng mà hầu hết các nguồn gốc đều đáp ứng:
3 giây | 3,5 giây | 4 giây | 4,5 giây | 5 giây | |
---|---|---|---|---|---|
phone | 45% | 35% | 26% | 20% | 15% |
máy tính | 36% | 26% | 19% | 14% | 10% |
Đối với ngưỡng 4 giây, khoảng 26% nguồn gốc từ điện thoại và 21% nguồn gốc từ máy tính sẽ được phân loại là kém. Mức này nằm trong phạm vi mục tiêu của chúng tôi là 10-30%, vì vậy, chúng tôi kết luận rằng 4 giây là ngưỡng "kém" chấp nhận được.
Do đó, chúng tôi kết luận rằng 2,5 giây là ngưỡng "tốt" hợp lý và 4 giây là ngưỡng "kém" hợp lý cho Thời gian hiển thị nội dung lớn nhất.
Lượt tương tác đến nội dung hiển thị tiếp theo
Chúng tôi đã đặt các ngưỡng INP dựa trên chất lượng trải nghiệm và khả năng đạt được sau đây.
Chất lượng trải nghiệm
Nghiên cứu cho thấy độ trễ trong phản hồi hình ảnh lên đến khoảng 100 mili giây được coi là do một nguồn liên quan gây ra, chẳng hạn như dữ liệu đầu vào của người dùng. Điều này cho thấy ngưỡng "tốt" lý tưởng của Lượt tương tác đến nội dung hiển thị tiếp theo sẽ gần với ngưỡng này.
Thời gian phản hồi: 3 giới hạn quan trọng thường được trích dẫn của Jakob Nielsen xác định 0,1 giây là giới hạn để người dùng cảm thấy hệ thống phản hồi tức thì. Nielsen trích dẫn nghiên cứu của Miller và Card, người trích dẫn bài viết The Perception of Causality của Michotte năm 1962. Trong nghiên cứu của Michotte, người tham gia thử nghiệm được cho thấy "hai đối tượng trên màn hình. Đối tượng A khởi động và di chuyển về phía B. Nó dừng lại tại thời điểm tiếp xúc với B, trong khi B bắt đầu và di chuyển ra khỏi A." Michotte thay đổi khoảng thời gian từ khi Đối tượng A dừng lại cho đến khi Đối tượng B bắt đầu di chuyển. Michotte nhận thấy rằng, đối với độ trễ lên tới khoảng 100 mili giây, người tham gia sẽ thấy rằng Đối tượng A gây ra chuyển động của Đối tượng B. Đối với độ trễ từ khoảng 100 mili giây đến 200 mili giây, nhận thức về quan hệ nhân quả là lẫn lộn và đối với độ trễ trên 200 mili giây, chuyển động của Đối tượng B không còn được coi là do Đối tượng A gây ra.
Tương tự, Miller xác định ngưỡng phản hồi cho "Phản hồi để kiểm soát kích hoạt" là "dấu hiệu của hành động được đưa ra, thông thường, qua việc di chuyển của một phím, công tắc hoặc bộ phận điều khiển khác báo hiệu đã được kích hoạt thực tế. Phản hồi này phải được coi là một phần của hành động cơ học do người vận hành tạo ra. Độ trễ thời gian: Không quá 0,1 giây" và sau đó là "độ trễ giữa việc nhấn phím và phản hồi hình ảnh không được quá 0,1 đến 0,2 giây".
Gần đây hơn, trong bài viết Hướng tới nút ảo hoàn hảo về mặt thời gian, Kaaresoja và các đồng nghiệp đã điều tra nhận thức về tính đồng thời giữa việc chạm vào nút ảo trên màn hình cảm ứng và phản hồi hình ảnh tiếp theo cho biết nút đã được chạm, đối với nhiều độ trễ. Khi độ trễ giữa thao tác nhấn nút và phản hồi bằng hình ảnh là 85 mili giây trở xuống, người tham gia báo cáo rằng phản hồi bằng hình ảnh xuất hiện đồng thời với thao tác nhấn nút trong 75% thời gian. Ngoài ra, đối với độ trễ từ 100 mili giây trở xuống, người tham gia báo cáo chất lượng nhận thấy của thao tác nhấn nút luôn ở mức cao, chất lượng nhận thấy giảm xuống khi độ trễ từ 100 mili giây đến 150 mili giây và đạt mức rất thấp khi độ trễ là 300 mili giây.
Do đó, chúng tôi kết luận rằng nghiên cứu chỉ ra rằng 100 mili giây là mức tương tác "tốt" với ngưỡng Hiển thị tiếp theo đối với Chỉ số quan trọng về trang web. Ngoài ra, do người dùng báo cáo mức chất lượng thấp đối với độ trễ từ 300 mili giây trở lên, nên lý tưởng nhất là đây sẽ là ngưỡng "kém".
Khả năng đạt được
Bằng cách sử dụng dữ liệu từ CrUX, chúng tôi xác định rằng phần lớn các nguồn gốc trên web đều đáp ứng ngưỡng "tốt" của INP 200 mili giây tại phân vị thứ 75:
100 mili giây | 200 mili giây | 300 mili giây | 400 mili giây | 500 mili giây | |
---|---|---|---|---|---|
phone | 12% | 56% | 76% | 88% | 92% |
máy tính | 83% | 96% | 98% | 99% | 99% |
Chúng tôi cũng dành nhiều sự chú ý hơn vào việc xem xét khả năng đạt được INP cho các thiết bị di động cấp thấp hơn, trong đó các thiết bị di động có tỷ lệ lượt truy cập vào các trang web cao. Điều này đã khẳng định thêm về mức độ phù hợp của ngưỡng 200 mili giây.
Dựa trên ngưỡng 100 mili giây được hỗ trợ bởi nghiên cứu về chất lượng trải nghiệm và tiêu chí đạt được, chúng tôi kết luận rằng 200 mili giây là một ngưỡng hợp lý đối với trải nghiệm tốt
Để xác định ngưỡng "kém" cho LCP, chúng tôi sử dụng dữ liệu CrUX để xác định ngưỡng mà hầu hết các nguồn gốc đều đáp ứng:
100 mili giây | 200 mili giây | 300 mili giây | 400 mili giây | 500 mili giây | |
---|---|---|---|---|---|
phone | 88% | 44% | 24% | 12% | 8% |
máy tính | 17% | 4% | 2% | 1% | 1% |
Điều này cho thấy chúng ta có thể có ngưỡng "kém" là 300 mili giây.
Tuy nhiên, không giống như LCP và CLS, INP có mối tương quan nghịch với mức độ phổ biến – những trang web phổ biến hơn thường phức tạp hơn, dẫn đến khả năng cao hơn về INP. Khi chúng tôi xem xét 10.000 trang web hàng đầu—tạo thành phần lớn hoạt động duyệt Internet—chúng tôi thấy một bức tranh phức tạp hơn hiện lên:
100 mili giây | 200 mili giây | 300 mili giây | 400 mili giây | 500 mili giây | |
---|---|---|---|---|---|
phone | 97% | 77% | 55% | 37% | 24% |
máy tính | 48% | 17% | 8% | 4% | 2% |
Trên thiết bị di động, ngưỡng "kém" là 300 mili giây sẽ phân loại phần lớn các trang web phổ biến là "kém", làm cho tiêu chí khả năng đạt được của chúng tôi bị kéo giãn, trong khi ngưỡng 500 mili giây phù hợp hơn trong phạm vi 10-30% trang web. Cũng cần lưu ý rằng ngưỡng "tốt" là 200 mili giây cũng khó hơn đối với những trang web này, nhưng với 23% trang web vẫn vượt qua ngưỡng này trên thiết bị di động, thì điều này vẫn đáp ứng tiêu chí tỷ lệ vượt qua tối thiểu là 10%.
Vì lý do này, chúng tôi kết luận rằng 200 mili giây là ngưỡng "tốt" hợp lý cho hầu hết các trang web và lớn hơn 500 mili giây là ngưỡng "kém" hợp lý.
Điểm số tổng hợp về mức thay đổi bố cục
Ngưỡng CLS được thiết lập dựa trên những yếu tố cần cân nhắc về chất lượng trải nghiệm và khả năng đạt được như sau.
Chất lượng trải nghiệm
Điểm số tổng hợp về mức thay đổi bố cục (CLS) là một chỉ số mới đo lường mức độ thay đổi của nội dung hiển thị trên một trang. Vì CLS là chỉ số mới, nên chúng tôi chưa biết nghiên cứu nào có thể trực tiếp cung cấp thông tin về ngưỡng cho chỉ số này. Do đó, để xác định ngưỡng phù hợp với kỳ vọng của người dùng, chúng tôi đã đánh giá các trang thực tế với nhiều mức độ thay đổi bố cục để xác định mức độ thay đổi tối đa được coi là chấp nhận được trước khi gây ra sự gián đoạn đáng kể khi tiêu thụ nội dung trang. Trong quá trình kiểm thử nội bộ, chúng tôi nhận thấy rằng các mức độ thay đổi từ 0,15 trở lên luôn được coi là gây gián đoạn, trong khi các mức thay đổi từ 0,1 trở xuống là đáng chú ý nhưng không gây gián đoạn quá mức. Do đó, mặc dù việc không có sự thay đổi bố cục là lý tưởng, nhưng chúng tôi kết luận rằng các giá trị lên đến 0,1 là ngưỡng CLS "tốt".
Khả năng đạt được
Dựa trên dữ liệu CrUX, chúng ta có thể thấy rằng gần 50% nguồn gốc có CLS từ 0,05 trở xuống.
0,05 | 0,1 | 0,15 | |
---|---|---|---|
phone | 49% | 60% | 69% |
máy tính | 42% | 59% | 69% |
Mặc dù dữ liệu CrUX cho thấy rằng 0,05 có thể là ngưỡng CLS "tốt" hợp lý, nhưng chúng tôi nhận thấy rằng có một số trường hợp sử dụng khó tránh được sự thay đổi bố cục gây gián đoạn. Ví dụ: đối với nội dung được nhúng của bên thứ ba, chẳng hạn như nội dung được nhúng trên mạng xã hội, chiều cao của nội dung được nhúng đôi khi không được biết cho đến khi nội dung đó tải xong, điều này có thể dẫn đến sự thay đổi bố cục lớn hơn 0,05. Do đó, chúng tôi kết luận rằng mặc dù nhiều nguồn gốc đáp ứng ngưỡng 0,05, nhưng ngưỡng CLS 0,1 ít nghiêm ngặt hơn một chút sẽ tạo ra sự cân bằng tốt hơn giữa chất lượng trải nghiệm và khả năng đạt được. Chúng tôi hy vọng rằng sau này, hệ sinh thái web sẽ xác định các giải pháp để giải quyết việc thay đổi bố cục do nội dung nhúng của bên thứ ba gây ra, cho phép sử dụng ngưỡng "tốt" CLS (là 0, 05 hoặc 0) chặt chẽ hơn trong tương lai của Core Web Vitals.
Ngoài ra, để xác định ngưỡng "kém" cho CLS, chúng tôi đã sử dụng dữ liệu CrUX để xác định một ngưỡng mà hầu hết các nguồn gốc đều đáp ứng:
0,15 | 0,2 | 0,25 | 0,3 | |
---|---|---|---|---|
phone | 31% | 25% | 20% | 18% |
máy tính | 31% | 23% | Giảm 18% | Giảm 16% |
Đối với ngưỡng 0,25, khoảng 20% nguồn gốc từ điện thoại và 18% nguồn gốc từ máy tính sẽ được phân loại là "kém". Tỷ lệ này nằm trong phạm vi mục tiêu từ 10 đến 30%, vì vậy, chúng tôi kết luận rằng 0,25 là ngưỡng "kém" có thể chấp nhận được.