情報・データの選別が必要な理由・・・情報・データを選別する(1)

2018年9月3日

情報・データ収集はデータ分析プロセスの土台をなすが分析に比べるとあまり注目されていない

もっと本質を捉えられるようになりたいがどうしたらできるようになれるのか?とずっと模索している。洞察力は必要だがどうにも得体が知れないところがありどうしたら身につくのかよくわからない。分析もいろいろな処理の手法はあれどもちょっと違う。そんな中、あまりにたくさんある情報・データの中からいかに効率よく良い情報・データを収集するかが1つの鍵になるのではないか、と思い立った。

データ分析の文化が弱いせいだろうが、データ分析プロセスの土台をなす情報・データ収集はどうも話題に上りづらく、分析に比べると収集はどうしてもおまけのような扱いだ。情報・データ収集のうち認知バイアスについては書籍など見つかるのだが、それ以前の情報・データの選別についてはいまだ体系化されている様子はない。

そこで、「情報・データをどこから取ってくるか」「正しい情報・データと間違えた情報・データ、使える情報・データと使えない情報・データをどう選別するか」という情報・データの選別の話をこれから書いていくのであるが、まずはなぜ情報・データの選別が必要なのか説明する。

大事な話ではあるものの、実務経験をある程度積んでひどい目にあった人ことがある人の方が納得してもらえると思う。

情報・データの選別が必要な理由1・Garbage in, garbage out

様々な手法を駆使して分析でき、どんなに洞察力があったとしてもその元となる情報・データが間違えていれば元も子もない。完璧な情報・データが集まることなどありえないが、全く使い物にならない情報・データばかりでは分析しようがないし、それ以上に危険なのは間違えているデータを知らずに使って分析結果が狂ってしまうことだ。

料理でいえば、食材が腐っていればどれほど技術を持っていても食べられるようにはできないし、作ろうと思っている料理にふさわしくない食材では大きく味が変わってしまうのと同じだろう。ただし食材であれば見たり食べたりで違いが分かりやすいが、情報・データはそうはいかない。見極めるには知識や見識、ドメイン知識が必要だ。

情報・データの選別が必要な理由2・何が正しいのかを判断することの難しさ

ゴミでないことと正しいことは等価ではない。たった1つの物事を完璧に理解したり正しく評価することは容易ではないのだから、どんな専門家のどんな言動であれそれが本当に正しいのかを自分で判断することも難しい。

だからこそ意識して選別する必要があるのだが、これは言うほど簡単ではない。情報・データの検証には膨大な知識と時間が必要でありデータ分析の専門家が必要な理由でもある。

情報・データの選別が必要な理由3・情報・データには意図が含まれる

情報・データがどこからともなく自然発生することはない。情報・データはかならずどこかで人が介在する。ということは、そこには必ず発信者の意図が含まれているということでもある。発信された情報・データそのものに意図はないとしても、その情報・データは別の誰かから情報・データを受け取り発信者が取捨選択しているのであり、やはりここには発信者の意図が入り込む。

数値データに意図はない、というのも誤解だ。そのデータを取得するには誰かが何らかの方法で設定しなければならない。ということはどういったデータをどうやって取るかは人が決めており、良し悪しはその人の意図が介在する。

もしその意図に発信者が利益を得ること(広告など)や、悪意(政治的ブラックプロパガンダなど)が含まれているとしたらそのまま鵜呑みにすれば発信者の思う通りに動かされることになり不利益を被る。そして世の中で見かける情報・データはそのような情報・データに溢れかえっている。だからこそ情報・データの選別が必要になる。

情報・データの選別が必要な理由4・伝わるうちに内容が変わってしまうことがある

受け取った情報・データが実は本来の発信者の発言とは全く違った話だったということがある。人を介して伝わっているうちに間違えて伝えられた結果であるが、本来の発言はどうだったのか、意図は何だったのかをきちんと見極めないと正しくない情報・データを受け入れることになる。

情報・データの選別が必要な理由5・どんなに頑張っても人は偏り間違える

たとえ中立性を排除しようとしてもで完全にバイアス取り除くことは難しいし、間違えたり足りなかったりということも当然おきる。したがっていかなる情報であろうとも正しいことを前提にすることは危険だ。

ありとあらゆる情報・データを検証するなどというのはできない。しかし、常にどこかに偏っていたり間違えている可能性があるかもしれないと考えておくことで選別の失敗を減らすことができる。

選別だけでも結構大変

情報・データ収集については情報・データ収集を体系化する(目次だけ)でその時思いついた話を列挙したのであるが、情報・データの選別は「情報・データの入手経路別の特徴と課題」とさらにはテーマごと(ランキング情報の読み方についてとか)の話になる。収集全体を書き始めるとあまりに多いので選別に絞ってみたのだが、それでも大分ありそうなので、例のごとく思いついた話をとにかく書いて、あとでまとめることにする。