Penelitian dan metodologi di balik nilai minimum Data Web Inti
Data Web Inti adalah kumpulan metrik kolom yang mengukur aspek penting dari pengalaman pengguna dunia nyata di web. Core Web Vital mencakup metrik, serta nilai minimum target untuk setiap metrik, yang membantu developer memahami secara kualitatif apakah pengalaman situs mereka "baik", "perlu peningkatan", atau "buruk". Postingan ini akan menjelaskan pendekatan yang digunakan untuk memilih nilai minimum untuk metrik Data Web Inti secara umum, serta cara memilih nilai minimum untuk setiap metrik Data Web Inti tertentu.
Pengingat: Nilai minimum dan metrik Data Web Inti
Pada tahun 2020, Core Web Vitals mencakup tiga metrik: Largest Contentful Paint (LCP), Penundaan Input Pertama (FID), dan Pergeseran Tata Letak Kumulatif (CLS). Setiap metrik mengukur berbagai aspek pengalaman pengguna: LCP mengukur kecepatan pemuatan yang dirasakan dan menandai titik di linimasa pemuatan halaman saat konten utama halaman kemungkinan telah dimuat; FID mengukur responsivitas dan mengukur pengalaman yang dirasakan pengguna saat mencoba berinteraksi pertama kali dengan halaman; dan CLS mengukur stabilitas visual dan mengukur jumlah pergeseran tata letak yang tidak terduga dari konten halaman yang terlihat.
Setiap metrik Data Web Inti memiliki nilai minimum terkait, yang mengategorikan performa sebagai "baik", "perlu peningkatan", atau "buruk":
Baik | Buruk | Persentil | |
---|---|---|---|
Largest Contentful Paint (LCP) | ≤2500 mdtk | >4.000 mdtk | 75 |
Penundaan Input Pertama | ≤100 mdtk | >300 mdtk | 75 |
Pergeseran Tata Letak Kumulatif (CLS) | ≤0,1 | >0,25 | 75 |
Selain itu, untuk mengklasifikasikan keseluruhan performa halaman atau situs, kami menggunakan nilai persentil ke-75 dari semua kunjungan halaman untuk halaman atau situs tersebut. Dengan kata lain, jika setidaknya 75 persen kunjungan halaman ke situs memenuhi nilai minimum "baik", situs tersebut diklasifikasikan sebagai memiliki performa "baik" untuk metrik tersebut. Sebaliknya, jika setidaknya 25 persen kunjungan halaman memenuhi nilai minimum "buruk", situs akan diklasifikasikan sebagai memiliki performa "buruk". Jadi, misalnya, LCP persentil ke-75 selama 2 detik diklasifikasikan sebagai "baik", sedangkan LCP persentil ke-75 selama 5 detik diklasifikasikan sebagai "buruk".
Kriteria untuk nilai minimum metrik Data Web Inti
Saat menetapkan nilai minimum untuk metrik Data Web Inti, kami terlebih dahulu mengidentifikasi kriteria yang harus dipenuhi oleh setiap nilai minimum. Di bawah ini, saya menjelaskan kriteria yang kami gunakan di Google untuk mengevaluasi nilai minimum metrik Data Web Inti 2020. Bagian selanjutnya akan membahas secara lebih detail tentang penerapan kriteria ini untuk memilih nilai minimum setiap metrik pada tahun 2020. Di tahun-tahun mendatang, kami akan melakukan peningkatan dan penambahan pada kriteria dan nilai minimum agar kemampuan kami dalam mengukur pengalaman pengguna yang luar biasa di web menjadi lebih baik.
Pengalaman pengguna berkualitas tinggi
Tujuan utama kami adalah mengoptimalkan pengguna dan kualitas pengalaman mereka. Oleh karena itu, kami ingin memastikan bahwa halaman yang memenuhi batas "baik" Data Web Inti memberikan pengalaman pengguna berkualitas tinggi.
Untuk mengidentifikasi batas yang terkait dengan pengalaman pengguna berkualitas tinggi, kami mempertimbangkan persepsi manusia dan riset HCI. Meskipun riset ini terkadang diringkas menggunakan satu batas tetap, kami menemukan bahwa riset yang mendasari biasanya dinyatakan sebagai rentang nilai. Misalnya, riset tentang jumlah waktu yang biasanya menunggu pengguna sebelum kehilangan fokus kadang-kadang digambarkan sebagai 1 detik, sedangkan riset yang mendasarinya sebenarnya dinyatakan sebagai rentang, dari ratusan milidetik hingga beberapa detik. Fakta bahwa batas persepsi bervariasi, bergantung pada pengguna dan konteks, selanjutnya didukung oleh data metrik Chrome gabungan dan anonim, yang menunjukkan bahwa tidak ada waktu yang cukup lama bagi pengguna untuk menunggu halaman web menampilkan konten sebelum membatalkan pemuatan halaman. Sebaliknya, data ini menunjukkan distribusi yang lancar dan berkelanjutan. Untuk mengetahui lebih dalam tentang nilai minimum persepsi manusia dan riset HCI yang relevan, lihat The Science Behind Web Viitals.
Jika riset pengalaman pengguna yang relevan tersedia untuk metrik tertentu dan ada konsensus yang wajar mengenai rentang nilai dalam literatur, kami menggunakan rentang ini sebagai input untuk memandu proses seleksi ambang batas kami. Jika riset pengalaman pengguna yang relevan tidak tersedia, seperti untuk metrik baru seperti Pergeseran Tata Letak Kumulatif, kami akan mengevaluasi halaman dunia nyata yang memenuhi nilai minimum kandidat yang berbeda untuk suatu metrik, untuk mengidentifikasi ambang batas yang menghasilkan pengalaman pengguna yang baik.
Dapat dicapai dengan konten web yang ada
Selain itu, untuk memastikan pemilik situs dapat berhasil mengoptimalkan situs mereka untuk memenuhi nilai minimum "baik", kami mewajibkan nilai minimum ini dapat dicapai untuk konten yang ada di web. Misalnya, meskipun nol milidetik adalah batas "baik" LCP yang ideal, sehingga menghasilkan pengalaman pemuatan instan, batas nol milidetik tidak dapat dicapai dalam sebagian besar kasus karena latensi pemrosesan jaringan dan perangkat. Dengan demikian, nol milidetik bukanlah batas "baik" LCP yang wajar untuk Data Web Inti.
Saat mengevaluasi nilai minimum "baik" Data Web Inti kandidat, kami memverifikasi bahwa nilai minimum tersebut dapat dicapai, berdasarkan data dari Laporan Pengalaman Pengguna Chrome (CrUX). Untuk mengonfirmasi bahwa nilai minimum tersebut dapat dicapai, kami mewajibkan setidaknya 10% origin yang saat ini memenuhi nilai minimum "baik". Selain itu, untuk memastikan bahwa situs yang dioptimalkan dengan baik tidak salah diklasifikasikan karena variabilitas dalam data lapangan, kami juga memverifikasi bahwa konten yang dioptimalkan dengan baik secara konsisten memenuhi batas "baik".
Sebaliknya, kami menetapkan batas "buruk" dengan mengidentifikasi tingkat performa yang saat ini hanya tidak dipenuhi oleh sebagian kecil origin. Kecuali jika ada riset yang relevan untuk menentukan batas "buruk", secara default 10-30% origin dengan performa terburuk diklasifikasikan sebagai "buruk".
Poin penutup tentang kriteria
Saat mengevaluasi nilai minimum kandidat, kami menemukan bahwa kriteria tersebut terkadang bertentangan satu sama lain. Misalnya, mungkin akan ada ketegangan antara nilai minimum yang dapat dicapai secara konsisten dan batas tersebut memastikan pengalaman pengguna yang baik secara konsisten. Selain itu, mengingat bahwa riset persepsi manusia biasanya memberikan berbagai nilai, dan metrik perilaku pengguna menunjukkan perubahan perilaku secara bertahap, kami menemukan bahwa sering kali tidak ada batas yang "benar" untuk sebuah metrik. Oleh karena itu, pendekatan kami untuk Data Web Inti 2020 adalah memilih nilai minimum yang paling sesuai dengan kriteria di atas, sembari menyadari bahwa tidak ada batas yang sempurna dan terkadang kami mungkin perlu memilih dari beberapa nilai minimum kandidat yang wajar. Daripada menanyakan "berapa batas sempurna?", kami justru berfokus pada pertanyaan "nilai minimum kandidat mana yang paling sesuai dengan kriteria kita?"
Pilihan persentil
Seperti disebutkan sebelumnya, untuk mengklasifikasikan keseluruhan performa suatu halaman atau situs, kami menggunakan nilai persentil ke-75 dari semua kunjungan ke halaman atau situs tersebut. Persentil ke-75 dipilih berdasarkan dua kriteria. Pertama, persentil ini harus memastikan bahwa sebagian besar kunjungan ke halaman atau situs mengalami tingkat performa target. Kedua, nilai pada persentil yang dipilih tidak boleh terlalu terpengaruh oleh pencilan.
Tujuan-tujuan ini agak bertentangan satu sama lain. Untuk memenuhi tujuan pertama, persentil yang lebih tinggi biasanya merupakan pilihan yang lebih baik. Namun, dengan persentil yang lebih tinggi, kemungkinan nilai yang dihasilkan yang terpengaruh oleh pencilan juga akan meningkat. Jika beberapa kunjungan ke situs kebetulan berada di koneksi jaringan yang tidak stabil yang menghasilkan sampel LCP yang terlalu besar, kami tidak ingin klasifikasi situs kami ditentukan oleh sampel pencilan ini. Misalnya, jika kita mengevaluasi performa situs dengan 100 kunjungan menggunakan persentil tinggi seperti ke-95, hanya perlu 5 sampel pencilan untuk nilai persentil ke-95 agar terpengaruh oleh pencilan.
Mengingat tujuan ini sedikit bertentangan, setelah analisis, kami menyimpulkan bahwa persentil ke-75 mencapai keseimbangan yang wajar. Dengan menggunakan persentil ke-75, kami tahu bahwa sebagian besar kunjungan ke situs (3 dari 4) mengalami tingkat performa target atau lebih baik. Selain itu, nilai persentil ke-75 cenderung tidak terpengaruh oleh pencilan. Kembali ke contoh kita, untuk situs dengan 100 kunjungan, 25 kunjungan tersebut perlu melaporkan sampel pencilan yang besar agar nilai pada persentil ke-75 terpengaruh oleh pencilan. Meskipun jika Anda melakukan 25 dari 100 sampel, kemungkinannya jauh lebih kecil dibandingkan kasus persentil ke-95.
Largest Contentful Paint (LCP)
Kualitas pengalaman
1 detik sering disebut sebagai lamanya waktu pengguna akan menunggu sebelum mereka mulai kehilangan fokus pada suatu tugas. Setelah memeriksa riset yang relevan secara lebih dekat, kami menemukan bahwa 1 detik adalah perkiraan untuk menggambarkan rentang nilai, dari sekitar beberapa ratus milidetik hingga beberapa detik.
Dua sumber yang sering dikutip untuk batas 1 detik adalah Card et al dan Miller. Card menentukan batas "respons langsung" selama 1 detik, yang mengutip Unified Theories of Cognition dari Newell. Newell menjelaskan respons langsung sebagai "respons yang harus dibuat terhadap stimulus tertentu dalam waktu sekitar satu detik (yaitu, kira-kira dari ~0,3 detik hingga ~3 detik)." Ini mengikuti diskusi Newell tentang "kendala real-time pada kognisi", yang dicatat bahwa "interaksi dengan lingkungan yang membangkitkan pertimbangan kognitif berlangsung dalam hitungan detik" yang berkisar dari sekitar 0,5 hingga 2-3 detik. Miller, sumber lain yang sering disebut untuk batas 1 detik, mencatat "tugas yang dapat dan akan dilakukan manusia dengan komunikasi mesin akan secara serius mengubah karakternya jika penundaan respons lebih dari dua detik, dengan beberapa kemungkinan perpanjangan satu detik lagi atau lebih."
Riset Miller dan Card menjelaskan jumlah waktu tunggu pengguna sebelum kehilangan fokus sebagai suatu rentang, dari sekitar 0,3 hingga 3 detik, yang menunjukkan bahwa batas "baik" LCP seharusnya berada dalam rentang ini. Selain itu, mengingat batas "baik" First Contentful Paint yang ada adalah 1 detik, dan Largest Contentful Paint biasanya terjadi setelah First Contentful Paint, kami akan membatasi lebih lanjut rentang nilai minimum LCP kandidat, dari 1 detik menjadi 3 detik. Untuk memilih nilai minimum dalam rentang ini yang paling memenuhi kriteria, kita melihat kemampuan pencapaian nilai minimum kandidat ini di bawah.
Pencapaian
Dengan menggunakan data dari CrUX, kita dapat menentukan persentase asal di web yang memenuhi batas "baik" LCP kandidat kita.
% asal CrUX diklasifikasikan sebagai "baik" (untuk nilai minimum LCP kandidat)
1 detik | 1,5 detik | 2 detik | 2,5 detik | 3 detik | |
---|---|---|---|---|---|
phone | 3,5% | 13% | 27% | 42% | 55% |
desktop | 6,9% | 19% | 36% | 51% | 64% |
Meskipun kurang dari 10% origin memenuhi nilai minimum 1 detik, semua nilai minimum lainnya dari 1,5 hingga 3 detik memenuhi persyaratan kami bahwa setidaknya 10% origin memenuhi batas "baik", sehingga tetap menjadi kandidat yang valid.
Selain itu, untuk memastikan nilai minimum yang dipilih dapat dicapai secara konsisten untuk situs yang dioptimalkan dengan baik, kami menganalisis performa LCP untuk situs berperforma terbaik di seluruh web, untuk menentukan nilai minimum mana yang secara konsisten dapat dicapai untuk situs ini. Secara khusus, kami bertujuan untuk mengidentifikasi nilai minimum yang secara konsisten dapat dicapai pada persentil ke-75 untuk situs berperforma terbaik. Kami mendapati bahwa nilai minimum 1,5 dan 2 detik tidak dapat dicapai secara konsisten, sedangkan 2,5 detik dapat dicapai secara konsisten.
Guna mengidentifikasi nilai minimum yang "buruk" untuk LCP, kami menggunakan data CrUX untuk mengidentifikasi nilai minimum yang terpenuhi oleh sebagian besar origin:
% asal CrUX diklasifikasikan sebagai "buruk" (untuk nilai minimum LCP kandidat)
3 detik | 3,5 detik | 4 detik | 4,5 detik | 5 detik | |
---|---|---|---|---|---|
phone | 45% | 35% | 26% | 20% | 15% |
desktop | 36% | 26% | 19% | 14% | 10% |
Untuk batas waktu 4 detik, sekitar 26% origin ponsel, dan 21% origin desktop, akan diklasifikasikan sebagai buruk. Ini berada dalam rentang target 10-30%, jadi kita simpulkan bahwa 4 detik adalah batas "buruk" yang dapat diterima.
Dengan demikian, kami menyimpulkan bahwa 2,5 detik adalah batas "baik" yang wajar, dan 4 detik adalah batas "buruk" yang wajar untuk Largest Contentful Paint.
Penundaan Input Pertama
Kualitas pengalaman
Riset cukup konsisten dalam menyimpulkan bahwa keterlambatan dalam masukan visual hingga sekitar 100 md dianggap disebabkan oleh sumber terkait, seperti input pengguna. Hal ini menunjukkan bahwa batas "baik" Penundaan Input Pertama 100 milidetik mungkin sesuai sebagai standar minimum: jika penundaan untuk memproses input melebihi 100 milidetik, tidak ada kesempatan untuk langkah pemrosesan dan rendering lain agar selesai tepat waktu.
Dalam artikel yang sering disebut Jakob Nielsen, Waktu Respons: 3 Batas Penting, mendefinisikan 0,1 detik sebagai batas agar pengguna merasa bahwa sistem bereaksi secara instan. Nielsen mengutip Miller dan Card, yang mengutip The Perception of Causality dari Michotte. Dalam riset Michotte, peserta eksperimen akan melihat "dua objek di layar. Objek A berangkat dan bergerak ke arah B. Titik-titik itu berhenti pada saat bersentuhan dengan B, sementara yang kedua kemudian mulai dan bergerak menjauh dari A." Michotte memvariasikan interval waktu antara saat Objek A berhenti dan saat Objek B mulai bergerak. Michotte menemukan bahwa, untuk penundaan hingga sekitar 100 milidetik, peserta mendapatkan kesan bahwa Objek A menyebabkan gerakan Objek B. Untuk penundaan dari sekitar 100 md hingga 200 md, persepsi kausalitas beragam, dan untuk penundaan lebih dari 200 md, gerakan Objek B tidak lagi dianggap disebabkan oleh Objek A.
Demikian pula, Miller menentukan batas respons untuk "Respons untuk mengontrol aktivasi" sebagai "indikasi tindakan yang diberikan, biasanya, oleh pergerakan kunci, tombol, atau anggota kontrol lain yang menandakan bahwa tindakan tersebut telah diaktifkan secara fisik. Respons ini harus...dianggap sebagai bagian dari tindakan mekanis yang disebabkan oleh operator. Penundaan waktu: Tidak lebih dari 0,1 detik" dan setelahnya "penundaan antara penekanan tombol dan respons visual tidak boleh lebih dari 0,1 hingga 0,2 detik".
Baru-baru ini, dalam Towards the Temporally Perfect Virtual Button, Kaaresoja et al, menyelidiki persepsi simultanitas antara sentuhan tombol virtual di layar sentuh dan respons visual berikutnya yang menunjukkan bahwa tombol tersebut disentuh, untuk berbagai penundaan. Saat penundaan antara penekanan tombol dan respons visual adalah 85 md atau kurang, peserta melaporkan masukan visual muncul secara bersamaan dengan penekanan tombol 75% dari waktu. Selain itu, untuk penundaan 100 md atau kurang, peserta melaporkan kualitas penekanan tombol yang tinggi secara konsisten, dengan kualitas yang dirasakan gagal untuk penundaan 100 md hingga 150 md, dan mencapai level yang sangat rendah untuk penundaan 300 md.
Dengan demikian, kami menyimpulkan bahwa riset menunjukkan rentang nilai sekitar 100 md sebagai nilai minimum Penundaan Input Pertama yang sesuai untuk Data Web. Selain itu, jika pengguna melaporkan tingkat kualitas rendah untuk penundaan 300 md atau lebih, 300 md dianggap sebagai batas "buruk" yang wajar.
Pencapaian
Dengan menggunakan data dari CrUX, kami menentukan bahwa sebagian besar origin di web memenuhi batas "baik" FID 100 md pada persentil ke-75:
% asal CrUX diklasifikasikan sebagai "baik" untuk batas 100 md FID
100 md | |
---|---|
phone | 78% |
desktop | >99% |
Selain itu, kami mengamati bahwa situs teratas di seluruh web dapat secara konsisten memenuhi nilai minimum ini pada persentil ke-75 (dan sering kali mencapainya pada persentil ke-95).
Dengan demikian, kami menyimpulkan bahwa 100 md adalah batas "baik" yang wajar untuk FID.
Pergeseran Tata Letak Kumulatif (CLS)
Kualitas pengalaman
Pergeseran Tata Letak Kumulatif (CLS) adalah metrik baru yang mengukur seberapa banyak konten yang terlihat di halaman bergeser. Karena CLS masih baru, kami tidak mengetahui adanya riset yang dapat langsung menginformasikan nilai minimum untuk metrik ini. Oleh karena itu, untuk mengidentifikasi nilai minimum yang selaras dengan ekspektasi pengguna, kami mengevaluasi halaman dunia nyata dengan jumlah pergeseran tata letak yang berbeda, untuk menentukan jumlah pergeseran maksimum yang dianggap dapat diterima sebelum menyebabkan gangguan signifikan saat menggunakan konten halaman. Dalam pengujian internal, kami menemukan bahwa tingkat pergeseran dari 0,15 ke atas secara konsisten dianggap mengganggu, sedangkan pergeseran 0,1 dan di bawahnya terlihat jelas, tetapi tidak terlalu mengganggu. Dengan demikian, meskipun pergeseran tata letak nol idealnya, kami menyimpulkan bahwa nilai hingga 0,1 adalah batas CLS kandidat "baik".
Pencapaian
Berdasarkan data CrUX, kita dapat melihat bahwa hampir 50% asal memiliki CLS 0,05 atau lebih rendah.
% asal CrUX diklasifikasikan sebagai "baik" (untuk nilai minimum CLS kandidat)
0,05 | 0,1 | 0,15 | |
---|---|---|---|
phone | 49% | 60% | 69% |
desktop | 42% | 59% | 69% |
Meskipun data CrUX menunjukkan bahwa 0,05 mungkin merupakan batas "baik" CLS yang wajar, kami menyadari bahwa ada beberapa kasus penggunaan yang saat ini sulit untuk menghindari pergeseran tata letak yang mengganggu. Misalnya, untuk konten pihak ketiga yang disematkan, seperti sematan media sosial, tinggi konten yang disematkan terkadang tidak diketahui sampai konten selesai dimuat, yang dapat menyebabkan pergeseran tata letak yang lebih besar dari 0,05. Dengan demikian, kami menyimpulkan bahwa, meskipun banyak asal yang memenuhi batas 0,05, batas CLS yang sedikit kurang ketat yaitu 0,1 akan memberikan keseimbangan yang lebih baik antara kualitas pengalaman dan kemampuan pencapaian. Kami berharap bahwa, ke depannya, ekosistem web akan mengidentifikasi solusi untuk mengatasi perubahan tata letak yang disebabkan oleh sematan pihak ketiga, sehingga memungkinkan penggunaan batas "baik" CLS yang lebih ketat, yakni 0,05 atau 0 pada iterasi Core Web Vitals pada masa mendatang.
Selain itu, untuk menentukan nilai minimum yang "buruk" untuk CLS, kami menggunakan data CrUX untuk mengidentifikasi nilai minimum yang dipenuhi oleh sebagian besar origin:
% asal CrUX diklasifikasikan sebagai "buruk" (untuk nilai minimum CLS kandidat)
0,15 | 0,2 | 0,25 | 0,3 | |
---|---|---|---|---|
phone | 31% | 25% | 20% | 18% |
desktop | 31% | 23% | 18% | 16% |
Untuk batas 0,25, sekitar 20% origin ponsel, dan 18% origin desktop, akan diklasifikasikan sebagai "buruk". Ini berada dalam rentang target 10-30%, sehingga kita menyimpulkan bahwa 0,25 adalah batas "buruk" yang dapat diterima.