データ分析とインテリジェンス

「収集」フェーズ

プロセスの1フェーズだけど内容は非常に幅広い

日本では「データ」の話は「すでに綺麗なデータが用意されていて、処理するだけ」になっていることも多い。しかし実務においてはその前の「収集」フェーズを無視することは絶対にできない。そこで「収集」フェーズに焦点を当てて掘り下げてみる。

意思決定と分析のプロセスにおいて「収集」フェーズは概念としては「分析のために必要なデータを集めること」だ。しかし詳しく見てみると実に幅広い内容を含んでおり、いくつもの専門領域にわかれる。なのでプロセスの全体像に引き続き本記事でも概観に留める。

情報収集とも呼ばれるが、対象になるのは情報の中でも「データ」であるので「データ収集」と同義語になる。結果としてインテリジェンスになることはあるが「インテリジェンス収集」という表現は見たことが無い。

「収集」フェーズのタスク

「収集」フェーズのタスクを考えてみると、以下の5つに分けることができるだろう。

  • データ生成
  • データ集約
  • データ評価
  • データ整備
  • データ保管

データ生成

データを入手するための仕組み作り。まったくの無からデータを作りだすというより、観測することでデータとして扱えるようにする、という方が正確かもしれない。

あらゆるデータが対象になりえる。以下に挙げるのは1企業が行うことのほんの一部である。

  • サイトへのタグの設置とパラメータの設定
  • IDPOSが取れるレジを導入する
  • 画像や動画を撮るためにカメラを設置する
  • 音声を取るためにマイクを設置する
  • アンケートやインタビュー
  • 人間関係の構築

より大きな主体者、例えば国家やグローバル巨大企業であれば例えば以下のことも全て「生成」のための仕組みである。

  • 人工衛星打ち上げ
  • 海底ケーブルの敷設
  • 各種観測所の設営

データ集約

あちこちのシステムにあるデータを基盤に集める。集める先は「データレイク」と呼ばれることが多い。

前もって集約しておかないと必要になってから各システムからその都度集めてくることになる。その場合データ量が巨大になるととてもではないが間に合わない。また、各個人が保存しているデータ、紙の資料なども同様に集約しておくことが望ましい。

「データエンジニアリング」は主にこの集約を指すことがある。前後の「生成」や「整備」も含めて指していることもあるので定義には気を付ける。

出てくる用語としては以下があげられる。

  • パイプライン
  • ETL
  • ワークフロー
  • バッチ処理
  • データレイク

データ評価

データは信頼性や正確性を確かめなければならない。

バッチの失敗、データの重複や欠損などシステムで監視できるデジタルデータについてはあれば次の整備と併せてすでに取り組んでいる企業も多いだろう。

忘れられがちなのはそれ以外のデータの評価だ。噂やニュースを鵜呑みにすれば痛い目に合う。たった1つの話題、1つの表だけでも正しく理解するためには多くの背景知識が必要であり、意見が割れて議論が紛糾することは少なくない。

分析に使おうとしてから全てのデータを個別に評価することは非現実的である。そのため集約と前後して評価を行っておくことが望ましい。

データ整備

集約したデータはそのまま使うことは難しい。その理由は、重複や欠損があったりあちこちのテーブルに散らばっているため、毎回きれいにする処理を入れるとクエリが複雑になり処理も長くなる。するとエラーも発生しやすくなりせっかく集めたデータをうまく扱えない。

そこで事前にデータを使いやすくしておく。このタスクを「データ整備」としてまとめて考えてみると以下のタスクがあると考えられる。

  • 抽出:分析者が使うためのデータを提供する
  • 整理:DWHの設計やデータマートを構築する
  • 品質管理:品質の基準を決めてチェックを行う
  • 記録:メタデータの記載と管理を行う

データ保管

集約したデータは管理され、必要な時に取り出せるようにしておく必要がある。破棄するにしてもルールを決め、正しく扱われるようにしなければならない。

なお保管するだけでなく、データの流出を防ぐことも必要だ。これは情報セキュリティとも呼ばれる。意思決定と分析のプロセスとは別に扱う方が良いと考えるので紹介に留める。

データ基盤と「収集」フェーズ

データ基盤とは「収集」フェーズを実現するためのシステムの総称と考えるのがよさそうだ。

2021年時点では「データ基盤」とは主にデジタルデータを扱い、上記の「整備」以外の3つのタスクを対象としていることが多いように思われる。

各企業で呼び方は変わるとしても、上記の4つのタスクすべてが必要であることにかわりはないので言葉を使う際に定義に注意しておくのがいいだろう。

「収集」フェーズとは食材の準備

意思決定と分析のプロセスは料理に例えることが出来る。「収集」フェーズとは食材の準備の段階と言える。種をまき野菜を栽培したり海に出て魚を捕るところから始まり、市場から小売店へ運搬されて最後は消費者に届くまでの物流と中間加工を行っている。

つまり「収集」フェーズと書けば一言でもその中にはいくつもの仕事が含まれており、別のスキルが必要である。「データエンジニア」と一くくりにしてしまうと実態が見えにくくなると考えている。

本サイト管理人は「データ整備」を中心に活動している。次は整備について説明した記事を書く。個別の問題についてはデータ整備に随時書き加えている。

カテゴリー:意思決定と分析のプロセス