[GA4+BigQuery] BigQueryを使うならUIとは併用しないほうがいいのでは
予測できるリスクは回避した方がいいのでは
GA4は簡単にログが手に入るので、ぱっと見られる指標はUIで、UIでは見られないデータを取りたかったり他のデータと繋げる必要があればBigQueryで、という住み分けが今後どんどんと増えてくるだろう。
しかし、これにはちょっと躓くどころか落ちると抜け出すのが大変な落とし穴があり、できる限り回避した方がいい。
対策をとるために、GA4でもUIとBigQueryを併用することで何が起きるのかを「同じようなデータを違うツールで見るといつでもどこでも起きる話」を念頭において整理してみよう。
UIと併用すると整備の負担が増える
GA4への移行が進むにつれ、ここに挙げたことが頻繁に起きてくることは容易に予想できる。利用者は問い合わせるだけだから気軽に行ってくるのだが、それを受ける側は大変だ。
数字がずれる
UIで見ている数値をより掘り下げるためにBigQueryを使ってセグメントごとにばらすと合計が一致しない、なんてことがあたり前に起きる。それどころかUI上で表示されるユーザー数やデバイスなども近しい数値は出せても同じにはならない。
原因はUIではサンプリングされていたり独自の集計がされていたりするためで、回避しようがない。
数字のずれに関するオフィシャルの説明は下記を参照のこと。
問い合わせへの対応が増える
数字がずれると当然問い合わせが増えるのでその都度対応しなければならない。説明して「ずれるのが当然なので仕方がない」でみんなあきらめてくれればいいのだがそうもいかない。調べようとしても情報も少なく苦労する。
抽出のためのコミュニケーションが増える
その次に「まったく同じで無くても似たような数値が欲しい」と言われるが、デフォルト チャネルの定義のような細かい定義もすべて実装するか、どこまで再現するかのコミュニケーションが必要になる。コミュニケーションのために事前に調査も行う。
なお、書いてある通りに集計しても数値が合わない。
数値の再現が難しい
「多分こういう集計しているのだろう」と実際にやってみると、似たような数値はでるが一致することはほとんどない。イベント数ですら微妙にずれる。
数が少ないとほんのちょっとのずれの影響が大きく、集計が正しいのかどうかの判断を付けられない。デフォルトチャネルグループのようにUIにしかない指標だと再現はより一層困難になる。
集計の定義がわからないので再現できない
どんなに複雑でも定義があればまだいい方で、UIの数値を再現しようとしてもその定義がわからないことも少なくない。でオフィシャルサイトにも書いていないため数字をいじくりまわして似たような数値は出ても一致しない。
同じことが繰り返される
依頼者側からするとすでに業務に組み込まれて日常的に見ている数値とずれると違和感を持つのは当然なので、これらのことが指標を変えてその都度繰り替えされ、その都度整備のリソースが奪われる。
問題を回避する
上記に置ける問題を回避するには2つの方法が考えられる
1つは「完全にデータを一致させられるようにする」だ。もし実現できれば普段はUIで各自で行ってもらい、必要ならばBigQueryを利用する、という形が取れる。しかし前述のような状況なのでGA4+BigQueryでこちらの方法は実現が難しそうだ(ものすごいリソースを投入したら出来るかもしれないが)。
もう1つは「どちらか一方だけしか使わないようにする」。数字が合わないことで混乱するなら併用するのを止めることで問題そのものを無くす。ではどちらかしか使わないとしたら「どちらがいいのか?」という話になるが、ニーズや状況次第なので一概にどちらがいいとは言えない。選ぶための材料としてそれぞれの特徴をあげてみよう。
UIだけにする
手早く最低限の指標が見られればいいと割り切っているか、SQLは書けないがタグの設定ができるならこちらがいいかもしれない。
- GUIで操作できる
- 依頼して待たなくていい
- 利用のすそ野が広がりやすい
- 低コスト
- 定義がぶれない
- 他のデータと繋げられない
BigQueryだけにする
整備にリソースをあてられるなら最初からBigQueryにするのも選択肢に入れていいだろう。
- 独自の指標を定義できる
- GA以外のデータと組み合わせることが出来る
- SQLだけでなく整備のスキル全般も必要なので出来る人が限られる。例:連携されたデータを使いやすく整理する
- コストがかかる(整備の人件費、コミュニケーション、BigQueryの利用やデータの保管)
- データの利用を開放すると様々な問題を引き起こす(定義がばらばら、システムへの負担など)
- 行動に結びつかない興味本位な抽出依頼が増える
UIかBigQueryだけにしたいけれども出来ない時の折衷案
現実的にはあらゆる集計を担えるリソースを確保することは難しいのでUIかBigQueryだけにしたくても出来ない企業は多いだろう。そこで折衷案も考えてみよう
途中でUIだけからBigQueryだけに切り替える
最初はUIだけにして、ニーズが増えてきたら途中でBigQueryの利用に移行しようと考えている企業は多そうだ。問題が起きるのは途中で切り替えようとすると各所との調整が非常に面倒になることで、中途半端になりやすい。
もしこの方法を検討していて、すでにGAをある程度使っているのであれば多少無理してでもGA4への移行のタイミングでBigQueryだけにしてしまう手もある。UAとなら大きく数字がずれても「UAとは全く違うツールなので仕方がない。文句はGoogleに言って欲しい」で押し通せる。
問題としない
併用で起きることを問題と捉えずに「リソースを増やして対応する」か「今のリソースでできることだけ対応する」。データについて意思決定層のリテラシーが低いとこの方法(主に後者)が取られる可能性は高そうだ。
ところがデータはGAだけでないのであちこちで同じ事になってしまい生産性がガタ落ちになるのでできれば避けたいところ。
どうしても併用するなら言っておくべきこと
問題は認識していてもリソースは増やせない、でも整備への抽出依頼をしていると時間がかかりすぎるて文句が出るから避けたい、となればUIの利用を考えなければならない。そうするとずれは起きるべくして起きるのだから、そこで起きる責任まで被るのは何としても回避したい。
そこで「UIを使うならずれることを許容する、BigQueryのデータと違う場合はBigQueryを正としてUIとの違いは調査しない。ずれることでの不利益に整備側では責任を持たないようにして欲しい」と言うのはどうだろう。承認されたらUI利用者には事前に言っておく。
あとは趙括の母を誰が演じるか。
もしUIだけにすると決めてもデータだけは取っておく
最後に1つ注意。もしUIだけにすると決めたとしても、BigQueryへのデータ連携だけはしておくのがいいだろう。
そのうちBigQueryのデータを使いたくなるかもしれないが、その時になってからデータの連携を始めても遡ることができない。そんなにお金かからないはずなのでコストと相談して大きな問題にならないのであれば連携しておこう。使わないならそのまま放置しておけばいい。
GA4+BigQueryのまとめ