データサイエンティストとは

データサイエンティストとは何かを整理する

今まで、データサイエンティストやデータアナリストのキャリアについてはいろいろと書いてきたが、実は「データサイエンティスト」についてはきちんとまとめていなかったのでそろそろ整理しようと思う。なお、データサイエンティストとして活動している人に直接ヒアリングなどはしておらず、SNSやメディアを中心に全体の傾向を俯瞰するという方針なので、違和感を持たれるだろう人がいるだろうことは承知の上で書く。

役割からデータサイエンティストを考える

まず「データ分析をする人」の全体像については上の図のように分かれる。そして「データサイエンティスト」はこの分類には名前が出てこない。なぜかというと、データサイエンティストというのは具体的にこれをしたらデータサイエンティストと言えるものがなく、

  • アナリストとしてのデータサイエンティスト
  • 広義のアナリストとしてのデータサイエンティスト
  • 非分析者(というか機械学習エンジニア)としてのデータサイエンティスト

のように複数の面を持っており、これらのうち1つないしは複数を兼ねている。しかも現状ではこれらが全部ごちゃまぜになって「データサイエンティスト」として語られている。したがって企業や個人の単位であれば「上記の3つのうちどれを〇%の割合で行っている」と答えられるが「データサイエンティストは何をしている人なのか」という一般的な問いが混乱するのはこれが原因だ。

スキルからデータサイエンティストを考える

また、既存の役割と何が違うのかスキル面からも考えてみると、実のところ「データサイエンティスト」は「今までよりもデジタルに特化して高度な理論を使っている人」ぐらいで漠然としており、ではどの程度以上を使えれば「データサイエンティスト」なのかという明確な定義などできない。みんなのコンセンサスが取れるとしたら「統計学の入門書に書いてある程度のことでデータサイエンティストを名乗るな」ぐらいだろうか。

プログラミングやデータベースについては無ければデジタルデータを扱うアナリストや機械学習エンジニアにはなれないのでデータサイエンティストとの差別化ができるわけでもなく、となると結局のところスキル面で切り分けるのも難しい。

データサイエンティストを既存の役割とどう区別するか

あえて例えるならばデータアナリストが和洋中何でもありの居酒屋、データサイエンティストはある品目に特化した専門店と比べるのがよいだろうか。違いはいろいろな人にいろいろな料理を提供するか、何かに特化しているかで、居酒屋は個々の料理においては専門店には勝てないが、対応の幅と柔軟さでカバーする。データサイエンティストはある分野に特化する。

と、うまく分けられればよいのだがこれもデータアナリストやデータサイエンティストの多くは「和食料理屋」のように境目があいまいになってしまう。特定の分野(例えば統計モデリング)にのみ特化し世界最先端の技術を追っている、ぐらいになればわかりやすいのだが、学者や研究職であればともかく実務ではあまりいないようだ。

なお、都会であれば居酒屋と専門店は住み分けができるが、小さな町では専門店は成り立ちづらい。日本のデータ分析事情は居酒屋というよりは山奥の僻地で、居酒屋ですら存続が厳しい。

なぜこのような定義が曖昧な言葉だけが独り歩きしたのか

おそらくだが、データサイエンティストという名称はもともと様々な分野データ分析をする人がいるところに近年の技術向上により需要が出てきたデジタル特化+高度化=データサイエンティストという新しい区分という文脈で登場していたが、データ分析の文化が弱い日本ではこの文脈なく単に「データサイエンティスト」という言葉だけが広められてしまったために話が混乱したのではないか、というのが筆者の見方である。

SAS社のデータ・サイエンティストとは?あたりが参考になるだろう。

現在「データサイエンティスト」の実態はほぼ「機械学習エンジニア」

データサイエンティストは登場からすでに6年ほどが経過して、「アナリストとしてのデータサイエンティスト」はほとんど聞かれないことについては「データサイエンティストブームを総括する」を検証するで書いたがここにも引用すると、

「アナリストとしてのデータサイエンティスト」ということであればこれはもうほとんど聞かれない。もともと文化がないところに高々数年でできるような話でもないので、当然と言えば当然か。

「データサイエンティストブームを総括する」を検証する

最新テクノロジーを搭載したスパイクを公園で遊んでいる子供に渡したところで違いなどわかるわけがないのと同様に、いくら大量のデータが使えるようになったところで今まで手元の小さなデータもろくに使っていないのだからうまく扱えるわけもない。

となると、今言われている「データサイエンティスト」とは何か、という話になるがこれはつまりは「機械学習エンジニア」のことを指していると考えてほぼ問題ないだろう。ここには統計学の要素はあまり見当たらず「AIや人工知能を作る人」という要素が強い。

「データサイエンティスト」になりたいだけでは道を見失う

データ分析におけるよく聞くけれどもなんだかよくわからない代表格「データサイエンティスト」だが、さてそうなると「データサイエンティストになりたい」という人にはどう言えばよいだろう。なにしろ定義があいまいなのでこれだけではその人が何がしたいのかがわからない。

今回のテーマではないのでざっくり書くと、「最低限「アナリスト」なのか「エンジニア」なのかを区別して、どう進むか考えては」だ。違いは「データ分析をする人」は「アナリスト」と「エンジニア」に分かれ、その違いは「他の誰かが意思決定するための情報(つまりインテリジェンス)」を作るかどうかにあるを参照のこと。

さらに言うと「アナリスト」は現在の日本においてデータサイエンティスト・データアナリストであることは現在だけでなく将来においてもハイリスク・ローリターンなのでそれも踏まえて考えることをお勧めしたい。

データサイエンティストという言葉に踊らされない自分を作ろう

以上長々と書いてきたが、やっぱりいまいち漠然としたままなのはもうしょうがない。結局のところは課題に対して何ができるかが大切なのであって肩書で誤魔化さないとうまくいかない、なんてことにならないように日々精進するしかない、というところに落ち着く。

とはいえあれば誰かに有用かもしれないので、データサイエンティストを含めた「データ分析をする人」についてや、「データ分析をする人のキャリア」についてはすでにいくつか書いているので近いうちに取りまとめるつもり。