CrUX BigQuery データセットの使用方法

Chrome UX レポート(CrUX)の元データは、Google Cloud 上のデータベースである BigQuery で利用できます。BigQuery を使用するには、GCP プロジェクトと SQL の基本的な知識が必要です。

このガイドでは、BigQuery を使用して CrUX データセットに対してクエリを作成し、ウェブ上のユーザー エクスペリエンスの状態に関する有益な結果を抽出する方法について説明します。

  • データの整理方法を理解する
  • 送信元のパフォーマンスを評価する基本的なクエリを作成する
  • 高度なクエリを記述して、時間の経過に伴うパフォーマンスを追跡する

データ編成

まず、基本的なクエリを見てみましょう。

SELECT COUNT(DISTINCT origin) FROM `chrome-ux-report.all.202206`

クエリを実行するには、クエリエディタにクエリを入力し、[クエリを実行] ボタンをクリックします。

エディタに簡単なクエリを入力し、[実行] を押します。

このクエリには次の 2 つの部分があります。

  • SELECT COUNT(DISTINCT origin) は、テーブル内の出発地の数をクエリすることを意味します。大まかに言えば、2 つの URL が同じスキーム、ホスト、ポートを持つ場合、それらは同じオリジンの一部です。

  • FROM chrome-ux-report.all.202206 には、ソーステーブルのアドレスを指定します。このアドレスには 3 つの部分があります。

    • すべての CrUX データが整理される Cloud プロジェクト名 chrome-ux-report
    • データセット all: すべての国のデータを表します。
    • テーブル 202206: データの年と月(YYYYMM 形式)

各国のデータセットもあります。たとえば、chrome-ux-report.country_ca.202206 はカナダで発生したユーザー エクスペリエンス データのみを表します。

各データセットには、201710 以降の各月のテーブルがあります。前月の新しいテーブルは定期的にパブリッシュされます。

データテーブルの構造(スキーマとも呼ばれます)には、次のものが含まれます。

  • オリジン(例: origin = 'https://www.example.com')。そのウェブサイトのすべてのページのユーザー エクスペリエンスの集計分布を表します。
  • ページの読み込み時の接続速度(例: effective_connection_type.name = '4G'
  • デバイスタイプ(例: form_factor.name = 'desktop'
  • UX 指標自体
    • first_paint(FP)
    • first_contentful_paintFCP
    • largest_contentful_paintLCP
    • dom_content_loaded(DCL)
    • onload(OL)
    • layout_instability.cumulative_layout_shiftCLS
    • interaction_to_next_paintINP

各指標のデータは、オブジェクトの配列として編成されます。JSON 表記では、first_contentful_paint.histogram.bin は次のようになります。

[
    {"start": 0, "end": 100, "density": 0.1234},
    {"start": 100, "end": 200, "density": 0.0123},
    ...
]

各ビンには、開始時間と終了時間(ミリ秒単位)と、その期間内のユーザー エクスペリエンスの割合を表す密度が含まれます。つまり、この仮想的なオリジン、接続速度、デバイスタイプにおける FCP エクスペリエンスの 12.34% は 100 ミリ秒未満です。すべてのビンの密度の合計は 100% です。

BigQuery でテーブルの構造を参照する。

パフォーマンスを評価する

テーブル スキーマの知識を活用して、このパフォーマンス データを抽出するクエリを作成できます。

SELECT
  fcp
FROM
  `chrome-ux-report.all.202206`,
  UNNEST(first_contentful_paint.histogram.bin) AS fcp
WHERE
  origin = 'https://web.dev' AND
  effective_connection_type.name = '4G' AND
  form_factor.name = 'phone' AND
  fcp.start = 0

BigQuery で CrUX FCP をクエリする

結果は 0.01115 です。つまり、このオリジンのユーザー エクスペリエンスの 1.115% は、4G とスマートフォンで 0 ~ 100 ms です。クエリを任意の接続とデバイスタイプに一般化するには、WHERE 句から接続とデバイスタイプを省略し、SUM アグリゲータ関数を使用して、それぞれのビン密度をすべて合計します。

SELECT
  SUM(fcp.density)
FROM
  `chrome-ux-report.all.202206`,
  UNNEST(first_contentful_paint.histogram.bin) AS fcp
WHERE
  origin = 'https://web.dev' AND
  fcp.start = 0

BigQuery で CrUX FCP を合計する

結果は 0.05355 で、すべてのデバイスと接続タイプで 5.355% です。クエリを少し変更して、0 ~ 1,000 ms の「高速」FCP 範囲内のすべてのビンの密度を合計できます。

SELECT
  SUM(fcp.density) AS fast_fcp
FROM
  `chrome-ux-report.all.202206`,
  UNNEST(first_contentful_paint.histogram.bin) AS fcp
WHERE
  origin = 'https://web.dev' AND
  fcp.start < 1000

BigQuery で高速 FCP をクエリ

これにより、0.6977 が得られます。つまり、web.dev の FCP ユーザー エクスペリエンスの 69.77% は、FCP の範囲の定義に基づいて「高速」と見なされます。

パフォーマンスのトラッキング

オリジンに関するパフォーマンス データを抽出したので、古いテーブルにある過去のデータと比較できます。これを行うには、テーブルのアドレスを前の月に書き換えるか、ワイルドカード構文を使用してすべての月をクエリします。

SELECT
  _TABLE_SUFFIX AS yyyymm,
  SUM(fcp.density) AS fast_fcp
FROM
  `chrome-ux-report.all.*`,
  UNNEST(first_contentful_paint.histogram.bin) AS fcp
WHERE
  origin = 'https://web.dev' AND
  fcp.start < 1000
GROUP BY
  yyyymm
ORDER BY
  yyyymm DESC

BigQuery で CrUX FCP の時系列をクエリする

高速 FCP の割合は、月ごとに数パーセントポイントずつ変動しています。

yyyymm fast_fcp
202206 69.77%
202205 70.71%
202204 69.04%
202203 69.82%
202202 67.75%
202201 58.96%
202112 41.69%
... ...

これらの手法を使用すると、オリジンのパフォーマンスを調べ、高速エクスペリエンスの割合を計算し、その推移を追跡できます。次のステップとして、2 つ以上のオリジンをクエリして、パフォーマンスを比較してみてください。

よくある質問

CrUX BigQuery データセットに関するよくある質問を以下に示します。

他のツールではなく BigQuery を使用するのはどのような場合ですか?

BigQuery は、CrUX ダッシュボードや PageSpeed Insights などの他のツールから同じ情報を取得できない場合にのみ必要です。たとえば、BigQuery ではデータを意味のある方法でスライスしたり、HTTP Archive などの他の一般公開データセットと結合して高度なデータマイニングを行ったりできます。

BigQuery の使用に制限はありますか?

はい。最も重要な制限事項は、デフォルトではユーザーが 1 か月あたりクエリできるデータの量が 1 TB に制限されていることです。1 TB を超えると、1 TB あたり 5 米ドルの標準料金が適用されます。

BigQuery の詳細はどこで確認できますか?

詳しくは、BigQuery のドキュメントをご覧ください。