「今あるデータで何かできないか」で始めるとデータ分析は失敗する

「今あるデータで何かできないか」は選択肢を狭めるだけ

「今あるデータで何かできないか」と考える人は少なくない。そこにあるから使わなければもったいないとか、あわよくば利益が出たらうれしいとか、そうしたい気持ちはわかるのだが、そこはぐっと堪えて「何が目的であり、そのためには何を知るべきか」から始めないといけない。そうしないと、まったく見当違いの分析をしたり、分析はしても実行に繋がらないことになり、結局無駄になる。

今あるデータを前提にするとどうなるか

データ分析プロセスを考えればわかるように、まず目的があり、その目的を解決するために「何を知りたいか」という要求が行われた後、初めてデータの収集が開始される、というのが本来の流れである。「今あるデータで何かできないか」から始めるということは、このプロセスの途中から始めるということになる。

今あるデータを前提にするということは、データ分析プロセスでいうといきなり「分析」から入ることと同じ。抜け落ちるのは「何が目的であり、そのためには何を知るべきか」のフェーズだ。今あるデータで知るべきことがわかるかの保証もないのにそのデータを使おうとするのは、いわば本来ならば穴を開けたい(何が目的か)→ドリルが必要である(そのためには何を知るべきか)→ホームセンターに買いに行く(収集)という流れであるべきところを、ハンマーを持って「さて、これで何をしよう」と考え始めるのと同じことである。さらに悪いことに、ハンマーを使わなければならないという先入観があると、無理やりハンマーで穴を開けようとしたり、まったく関係ないところに釘を打つ作業を作り出そうとする。道具を使うことが目的化してしまうのだ。

ツールや理論も同じ。それを前提にしてはいけない

「せっかくツールを導入したのだから使いたい」とか「新しい理論を勉強したので使ってみたい」も同様で、「何が目的であり、そのためには何を知るべきか」から始めなければその分析は失敗するかほとんどが無駄になるだけだ。が、世の中の分析の大半はこのうちのどれかだ。たまたま目的に合致してうまく行くこともあるが、それは偶然に過ぎない。目的は常に念頭におき、そこから外れていないかは何度確認しても悪いことはない。

とはいえデータから始めなければいけないことの方が多い

とはいえ現実問題としては、

  • 上司やクライアントから今あるデータだけで何かやれと言われる
  • 必要なデータを集めてくる時間も金もないのでやむを得ず今あるデータでやる
  • これから新しく始めることだからコストがかけられないのでできる範囲でやる

ということは当然起こりえるわけで、それは結果的にそうなってしまうのでありもちろんそういった状況にも対応できなければならないが、最初から今あるデータありきで始めるのとは別の話。最大の問題は「データ分析に理解がない人に「今あるデータで何かできないか」がいかに問題なのかをわからせる」ことだったりするのだが、その方法は未だに模索中であり、解決の見込みは立っていない。