情報・データ収集を体系化する(目次だけ)

2018年7月24日

分析の土台としての情報・データ収集も体系化したい

意思決定のためのデータ分析そのものがあまり語られていないこともありそれ以上に支える情報収集には目がいかないようだ。書籍や大学のデータサイエンス教育もきれいなデータが用意されてそこから話が始まることが多いようだし、『大本営参謀の情報戦記』でも敵の位置や人数は明らかにされてそれから考えるという場面が出てくるところをみると情報やデータは誰かに与えられるものと思われているようだが、それは誤りであり、かつ非常に危険である。

情報・データ収集は料理でいえば仕入れに当たり、多少質が悪いのは調理や味付けで誤魔化せても腐っていれば使い物にならない。誰かが用意してくれるということもなく、自分でやらなければならない。これは自分自身で情報・データ収集のために動くことだけでなく、誰かに任せる際のマネジメント上の問題も含む。

情報・データ収集はデータ分析プロセスの一部ではあるが、実は幅広い活動であり、整理や保存、あるいは共有と関連活動まで含めるとかなりの範囲となる。まずは思いついたのを列挙しておき、記事を書きながら随時修正を行っていく。

情報・データ収集を体系化する

情報・データ収集についての全般的な考察

  • 「情報・データ収集」とは何を指すか
  • データ分析プロセスにおける情報・データ収集の位置づけ
  • 情報・データ収集の軽視が引き起こす弊害
  • 情報・データ収集が軽視される理由

情報・データの読み取りを誤る原因を知る

  • 第三者を装った本人の意見ないしは宣伝
  • 意味のない一般化
  • レッテル貼り
  • 「事実」と「著者の意見」と「第三者の意見」の混同
  • 隠された事実
  • 態度
  • 思い込み
  • 生存バイアス
  • 利害関係者によるポジショントーク
  • 当事者の関係性
  • 意図
  • 伝言ゲーム
  • 肩書
  • 権威
  • 人格攻撃
  • 因果関係と相関関係の混同
  • 正しくないデータを元にした考察
  • 拡大解釈
  • 関係ない話をつなげている
  • その他

正しい情報・データを受け入れるために自分を顧みる

  • 自分の知識が不足していないか
  • 認知的不協和を起こしていないか
  • 相手の好き嫌いで判断していないか
  • プレッシャーによる歪みはないか
  • 自分の考えに合うか合わないかで判断していないか

情報・データの入手経路別の特徴と課題

  • テレビ
  • 新聞
  • ラジオ
  • ブログ
  • SNS
  • 雑誌
  • 広告
  • 人づて/業界関係者
  • 人づて/面接
  • 人づて/友人・知人
  • セミナー

情報・データ収集の注意事項

  • 統計情報
  • 異常値
  • 欠損値
  • 重複
  • データ型
  • 桁数
  • 期間の過不足
  • 項目の過不足
  • ファイル名
  • ファイル形式
  • 区切り文字
  • 囲い文字
  • 文字コード
  • ヘッダのあるなし
  • 並び順

情報・データの受領と確認

  • 定期的にデータを受け取る際に気を付けること
  • データを受け取ったらチェックすること

情報・データ収集の法的な問題

  • 競合調査
  • スクレイピング
  • スパイ

関係者のマネジメント

  • 情報・データを作る人
  • 情報・データを扱う人
  • 情報・データ収集を任せる人
  • 情報・データは触らないけれどえらい人

その他のテーマ

  • 情報・データの整理と保存
  • 情報・データの共有

いつかはデータ分析の全体を・・・

このブログはデータ分析の全体を体系化したいという真の目的のために日々書き進めてはいるが、まとめるにしてもそれなりの量になるのを待ってもいつになるかわからないのでまずは情報・データ収集についてともかくも目次だけでも作ってみよう、ということで書いてみた。が、目次だけでも結構な量になっておりいつになったら記事のリンクで埋まるのか見当がつかないが、継続していればいつかたどり着ける(かもしれない)のであきらめないでがんばろうと思う。