データ分析プロセスの概要

2018年5月9日

データ分析は目的の決定から始まるプロセスである

「データ分析」は一般的にはすでにそこにあるデータを何らかの手法で処理すること、あるいはその処理されたデータから何かを読み取ることと捉えられている。これは間違いではないがデータ分析の一部分を捉えているにすぎず、その先入観がデータ分析に対する理解が広がることを妨げている。

実はデータ分析は「何を知りたいのか」という目的の決定から始まり、データの収集と分析を経て、意思決定と施策の実行が行われ、結果のフィードバックされることで終わる一連のプロセスである。このプロセスを知ることで、データ「分析」と呼ばれる行いが、実はデータ分析プロセスの一部であり、それだけを切り離して考えることはできないということが理解できる。

データ分析プロセス

ここから各フェーズについて説明していく。全体像を見るためのモデルなので簡略化されているが、実際にはフェーズごとに様々な問題が発生することになる。ここでは大まかにデータ分析プロセスを把握することを目的とし、各フェーズについては個別に議論する。

データ分析プロセスのフェーズ

目的の決定

データ分析プロセスの最初のステップは、意思決定者が「何を知りたいのか」を明確にすることである。目的があいまいだったり、ましてや決まっていなければこの後の作業は全て無駄になる。目的が明確であっても、その目的そのものが間違えていればどうしようもない。一方で完璧な目標などありえない。そして、常に目的を「正しく」持っているかは問い続けなければならない。

また、データ分析の目的は意思決定の質を向上させることであり、データをいじくる事も表を見ながらあれこれ雑談することも手段の1つであって決して目的にはならない。

要求

意思決定者から分析者へ、「何を知りたいのか」を伝えるフェーズ。より詳しくは

  • A・意思決定者が分析者に「知りたいことは何か」を伝える
  • B・分析者は「そのためには何を知るべきか」を考える
  • C・分析者は意思決定者に「いつまでに何ができるか」を伝える

の3つに分けられる。分析者は意思決定者の求めるものを正しく把握し、この段階で何をどのように分析するかを決める。実務的には最重要なフェーズであり、意思決定者と分析者の密なコミュニケーションが求められる。

収集

要求に基づいて必要なデータの収集を行う。しかし、必要なデータが必要な時に必要な分だけ集まるということはまず無い。多すぎ、少なすぎ、欠けている、汚すぎて処理に時間がかかる、手に入れられるが間に合わない、コストがかかりすぎるなど様々な問題が起こり得る。最悪の場合、データの取得ができないことが発覚し、要求を満たすことができないことがこの時点でわかることもある。その場合は意思決定者に対して要求を満たせないことを伝え、方法を変えるか、要求そのものを変えるかを検討する。

分析

データをいくら集めてもどうしたら良い分析ができるのかは非常に難しい。データを処理するための様々な手法は存在するし、プログラムを動かせば結果はでるものの、目的やデータに対して何を使えば適切なのか、処理時間は現実的なのか、ただしく処理されているかは人が考えねばならない。また、分析の途中であっても緊急を要する情報が出た場合や、当初の予想と大きく外れた結果が出てきた場合などは早急に意思決定者に伝えなければならない。

データ「分析」と言うとこのフェーズがことさらに強調されていることが非常に多いのだが、実際にはプロセスの一部であり、分析だけを切り離すことはできない。特にデータサイエンティストやデータアナリストは、プロセス全体をマネジメントするがいない場合、自らがその役割を担うことになるので理解しておかなければプロセスがうまく動かせない。

洞察

分析された結果はさらに洞察により問題の本質に迫り、意思決定に使えるようになって初めて価値がでる。評価を行う際に最も重要なことは、徹底的に冷静な目で客観的に情報を評価することである。特に自社や自分の利益が絡むような場合は都合の良い解釈をしがちである。また、自分が良いと思う方に意思決定を誘導するために捻じ曲げてもいけない。分析や評価を誤る要因は数多く、常に自らを振り返らなければ大きな間違いを犯すことになる。

伝達

作成された結果を、意思決定者に伝える。口頭なのか資料にまとめるのか、まとめるとしたら簡潔か詳細かなどは受け取る側の好み次第なので、フィードバックを受けながら修正していく。

伝達で重要な点は、必要な時に届けることであり、遅すぎては意味が無いということである。より多くのデータを集める、詳細に分析する、量の多い報告書を作成することに時間を取られて意思決定者が必要な時に届いていないのでは元も子もない。また、分析者は要求の段階で納期を決めたらそれを守らねばならない。間に合わないことが予想される場合は部分的であっても提出するか、早めに納期の変更を行うかの交渉をできる限り早い段階で行わなければならない。

伝達の際に分析者の意見や提案を入れ込むことは行ってはいけない、というのがあるべき姿であるが、リテラシーの低い人に対して何の提案もしなければ「言われたことしかやらない」という評価がされることになり、非常に悩ましい問題である。

実行

伝達された分析は意思決定に使われなければ意味がない。かといって、分析結果を全て正しいと受け入れて使わなければならないというわけでもない。情報を無視して失敗した例は古今東西限りなく多いが、盲信することもまた同様に危険である。

また、意思決定しても実行されなければ、やはり無意味である。実行する気がない、あるいはどのような分析が提出されても結論が決まっているようならばデータ分析そのものが無駄である。

フィードバック

何が良く、何を改善すべきかを情報サイドにフィードバックすることで、改善を図る。フィードバックがあれば次回以降の改善に活かすことができるので、「出来る限り行う」ではなく「必ず行うことでプロセスの完結とする」とした方が良い。

データ分析プロセスは全ての基本

データ分析プロセスは、意思決定者(主に経営者・経営企画・マネジメント)・分析者(データサイエンティスト・データアナリスト・リサーチャー・Webアナリストなど)の双方にとって理解しておくべき基本である。意思決定者にとっては分析者何をしているかの理解につながり、分析者にとっては分析だけに視野が狭まってしまうことを防ぐ。

もし関わる人の中に1人でもこのプロセスを意識せずにデータ分析を行おうとする人がいると、「何を知りたいのか」というデータ分析における最重要事項がすっぽり抜け落ちてデータをいじくるだけになったり、「分析結果を洞察して次にどうするべきかを考える」ことをせずただ集計結果をまとめただけのレポートを作ったり、分析の経験がない営業やコンサルタントがデータハンドリングの工数を全く気にせずスケジューリングをして炎上したりと様々な問題を引き起こすことになる。その他にもデータ分析がプロセスであることを意識しないと見えないことも数多い。つまり、データ分析プロセスは分析者だけでなく全ての人が理解しておくべき内容なのだ。

もしピンとこなかったら

食事に例えてみるとわかりやすいと思うのでこちらもどうぞ。