松本健太郎氏に聞く!データサイエンティストを目指して転職をするな!
シャイニング丸の内をフォロー
こんにちは。
今回はデータサイエンティストとAIのスペシャリスト、松本健太郎さんへのインタビューの後編をお届けします。
前編はデータサイエンティストの仕事とは?というテーマで語っていただきました。
本職の松本健太郎氏に聞く!データサイエンティストの仕事とは?
世間では「データサイエンティストに転職すると年収が上がる」「AI時代にはコーディングを出来ないと生き延びられない」と言った煽情的なフレーズが飛び交っていますが、実は、「データサイエンティストが毎日何をしているのか」「クライアントは誰で、どんな仕事やサービスを提供していているのか」その実態を正確に理解している人間は少ないやもしれません。
今日はデータサイエンスに関して多数の書籍を出版され、東京大学の松尾豊先生にインタビューを行うなど、データサイエンティストとして精力的に活動されている、松本健太郎さんにロングインタビューを行うことが出来ました。
データサイエンティストとは何か、その実態とまやかし。或いは社会人や学生がデータサイエンスやAIを学ぶには何をどのようにすれば良いのか、その全てがこのインタビューで明らかになります。前編・後編を合わせて16,000字強とかなりボリュームのあるインタビューとなっていますが、お楽しみ頂ければと思います。
<h3AIの現状と問題点、そしてビジネスマンの勉強法とは
―ここからは、データサイエンスだけではなく、AIに関してお伺いしたいと思います。AIについてもデータサイエンスと同様に、世間の期待値が先行しているなという印象があります。今後の3~5年で、AI分野で何か具体的なインパクトが起きてくる・・・と言うような感覚を持っていらっしゃいますか?
3~5年というスパンだとそんなに変わらないと思います。ディープランニングしかり、その他の手段しかり。ちょっとした改善は絶え間なく行われ続け、その改善をベースに今まで出来なかったことが出来るようにはなるでしょう。
ただ、さすがに3~5年のスパンだと短すぎます。実際に人工知能界隈で上がっている研究成果というのは、あくまでも研究レベルです。世界を対象としていないので、3~5年では変わらないという気はします。
―それでは、現在の盛り上がりと言うのはあくまで研究室レベルの話だと。例えばビッグサイトなどの比較的大規模な展示会などに足を運ぶと、AIの導入例などが盛んに歌われていたりしますが、日常の劇的な改善にAIが入り込んでいるというのは、まだ無いと。そういう事でしょうか?
そうですね。無いと思います。
―逆に、AIで実用化が一番進んでいる分野は何ですか。
画像認識です。画像認識だと、確実にディープラーニングが世界を変えたな、と思っています。静止画でものを認識することは出来ましたし、今は動画で対応が出来るようになりました。
―動画も対応しているのですか。
しています。動画認識も可能になりました。それと、画像認識をベースにして様々な応用技術はでてきています。
―どういう技術ですか。
例えばFacebookの顔認識です。それと実験レベルかもしれませんが、野菜の収穫、熟れ頃、取り頃など画像認識で判断してゆく・・・と言うのがあると思います。
―メルカリに売りたい商品の写真をアップすると勝手にジャンルとタグ付けが出来るとか、それもですね。
方向性としては省人化、つまり今まで人間がタグ付けしていかなくてはいけないことがオートになって行くという事ですね。
そうだと思います。
―AIに関して備える、つまり個人の勉強に関してはどうでしょうか? ビジネスマンがAIについてキャッチアップしていく、あるいは学生が学生時代に学んでゆくべきことと言うのは、どういうところでしょうか。
多くの方が誤解しているなと思っているのは、ビジネスマンがPythonを勉強したらいいかというと、そうではないと思っています。
それより今問題になっている事は、自動車の中の仕組みが全くわからないのに、自動車とAIで革命を起こそうと言っている人がたくさんいることなんですね。
―それはコンサルタントや評論家と言った方々になるのでしょうか?
あとは、官僚、政治家、一般のビジネスマンですね。
―ビジネスマンの方もそこに含まれてしまうのでしょうか?
ビジネスマンも含まれます。含まれるから「データサイエンティストになると年収が上がるんですよね?」と言ってしまうのです。
―データサイエンティストになると年収が上がる、と言うのは幻想ですか。
幻想ですよ。
―AIが入り込む改善対象、先ほどは現場という話がありましたが、自動車なら自動車、発展の歴史、基本的なメカニズムを知り、そこにどういう課題があるのかを理解した上で、データサイエンスやAIの可能性を模索するならばまだしも、そうじゃないと話が全然とっちらかっちゃうよ、と。
そうだと思います。
―そうなると、AIとかデータサイエンスに関しての教養レベルのベーシックリテラシーとかそういうものはあんまり無い、という事になってしまうのでしょうか?
そこは僕が書いた新書を読めば一発じゃないかとずっと思っています(笑)
要は人工知能を作らなくて良いのです。ただ、人工知能もしくはディープラーニングで何ができるかは知っておいてほしい。
松本氏の著書はこちらです
データサイエンス「超」入門 嘘をウソと見抜けなければ、データを扱うのは難しい
- 作者: 松本健太郎
- 出版社/メーカー: 毎日新聞出版
- 発売日: 2018/09/28
- メディア: 単行本
- この商品を含むブログを見る
―でもそれは日々変わっていきますよね?
変わっていきますね。
―それを時代時代、今は第三次AIブームといわれていますけど、簡単な歴史と今できる現在地、後は今後出来るかもしれないことを流れくらいは知っていてほしいという事ですね。
そうですね。
―そのレベルだったら、コーディングが分かる必要はないし、本を何冊か読んで、今できること・出来ないことの現在地を把握しておく、と。
おっしゃる通りです。
―本主、本流としては自分が得意な好きな産業分野についての知識、知見というものをがっつりどっぷりやって、そこで自分が蓄えたAIの基礎知識と合流できないかな、と。センスを持って欲しいという事になりますかね。
そういうことだと思います。
―AIだ、データサイエンスだと騒ぐのは勝手だけど、今まで以上に実際にビジネスという事を勉強して下さいと。
そうですね。AIにしろ、データサイエンスにしろちゃんとやっている人は、そんなに騒いで無いですね。
AIとデータサイエンスに共通する「本質」とは
―それは松本さんだけでなく、他の方のインタビューでもそのような話がありました。MITメディアラボの伊藤先生が、仮想通貨の話をされた時に、投機目的で盛り上がっている人は盛り上がっているけれど、実際に技術的な事を勉強してきた人は全然一喜一憂していない・・・という事を仰っていて、それに近いものがあるかもしれないですね。
そうだと思います。皆さん、人工知能、AI、データだと言いますが、本当にちゃんとやっている人は「データも大事ですが、一連のプロセスをより大事にしているよ、だからそこをちゃんと考えましょうよ」という話なんですよ。
― 一連のプロセス?
例えばデータを取得するという時に、すべてがすべて綺麗なデータを取れるわけではありません。製造業をイメージするとわかりやすいかと思うのですが、データを取得する段階においても、一定の誤差が生じるじゃないですか? 誤差を0にするのは無理なんです。という事は、誤差があらかじめ入っているデータに対して、如何に誤差を取り除いて綺麗なデータに整形し、整形した後に分析に入っていく・・・というプロセスになります。実際のデータサイエンス、現場の人間が影でヒイヒイ言っているのはその辺なんです。
―おっしゃることはすごくよくわかりますが、データの真贋を見定めるのは、データサインティスト側ではなかなか難しいのではないでしょうか? クライアントサイドの経営陣、例えば20年くらい工場のマネジメントを一筋になってきた方ならば、特別な値のデータを見つけた時に、それがエラーなのかすぐに判断がつくと思いますが。
そこは先ほど言ったデータサイエンティストのレベル、レベル1~3の話に繋がってくるところだと思います。
レベル1の人は、特異なデータをそのまま受け止めるしか出来ないし、レベル3の人は、これはエラーだね・・・と直感的に判断することが出来ます。
―データをクレンジング、キレイにするという作業があって、その次に分析ですね。このあたりのプロセスを、専門的な用語では何と言うのでしょうか?
収集、集計、分析です。それらの前の段階で、計測というのがあります。データを測ることです。
―データが集まりました、分析しましょうという話になって、収集、集計、分析・・・使えそうなデータと使えないデータにふり分ける。その次が分析とおっしゃいました。
そうですね。目的に合致した分析ですね。
―そもそもデータを収集する目的自体が的はずれ、トンチンカンなことを言っている場合も一定数ある訳ですよね。
はい。とは言え、データが揃っていること自体が、まず強いと言うのがあります。
例えばデータサイエンスの世界で中国と言うのは1つの脅威だと見なされることがあるのですが、それはあながち間違っていないと思います。
要は、中国の場合は、何かよくわからないがとりあえず全部データを取っておけ、と言う話なんですよ。どこまで取るかというと「国家運営上、都合の良いデータは全て取れ」となっています。
でもその場合、中国がデータサイエンスの世界で圧勝するかというと必ずしもそうではない。結局、目的がズレているとアウトプットも変わってきます。
じゃあ、目的はどういう風に設定するんですかとなってくると、その辺は曖昧なんですよね。例えばアリババなどの企業任せだったりするわけで。そのデータを元にどうビジネスモデルを構築して、どうお金を稼いでいくのか、というのが本質であり、大事なことなのです。
ただし、事業を構築するにあたり、ありとあらゆるデータがあるのが有利というのは間違いないです。
―何と言うか、パラドックスというか、矛盾があるように聞こえてしまうのですが。先ほど、良いデータを集めるためには仮説や目的が良くないと良いデータは集まらないというお話がありました。でも今松本さんがおっしゃったのはデータがたくさんあればあるほど、結論を出しやすいですよね、と。
データがあるに越したことはないです。当然、目的に合致した綺麗な分析がでるに越したことはないですけども、分析が進むにつれて「このデータが取れていなかった」というミスがありがちなのです。でも中国みたいに、何か分からないけど全部のデータを取っとけ、というのは、結構有利です。
ただ、全てのデータが揃っていれば勝者なのかというと、それは違う。
―素材は素材であって、それを処理して料理していくというシェフの腕が問われると?
そうです。産地直送です、キャビアやトリュフがのっていますという料理が必ずしも美味しいわけではない。
組み合わせも入って来ますし。
そうした状況の中で、データサイエンスにおける中国脅威論と言うのは「中国が産直の美味しい素材ばかりを集めているからヤバいのではないか・・・」と言っているようにしか僕には見えません。
―今の体制として何でもかんでも無数のデータをどっさり集めていますよというところに、それを適切に処理していくデータサイエンティストが何百人か何千人という単位で育成されてくれば、そことそこの掛け合わせで強みがでてきますが、今はまだその段階ではないと?
そうです。中国もその辺はわかっていて、データを取るだけはなく、結局は人頼みですよねとなったので、大金大枚をはたい色々なデータサイエンスのスペシャリストを中国に集めています。
―国外からですか。
そうです。そしてそれは正しい方向だと思います。
―そもそもの話なのですが、圧勝、データサイエンスを利用して勝つと言うのは、どういう事なのでしょうか?
データが無い状態での人間による意思決定、価値判断には人のバイアスがかかっています。データを元にすればそのバイアスを取り除けるのが、まず1つです。もう1つは、人間の処理能力はたかがしれていますが、マシンにはそれがない。ハードに任せさえすれば膨大かつ圧倒的な量の計算を、超短時間で、素早くアウトプットしてくれますよね。
そうなった時に、この2つの組み合わせで、圧倒的な売り上げや、競合他社が近づけない圧倒的な地位を築けるじゃないか、と。
―それで、例えばプラットフォームビジネスにおいて、ガチガチにポジションを固めることが出来たら、それはもう勝利と呼べますね。バイアスが無くて、しかも並列処理をガッとやっていけば、マウントをとれて、それが勝利につながると。
とても分かりやすいです。
データサイエンティストを目指して転職するな
あと、1つ言い忘れたことがあるのですが。
―何でしょうか?
データサイエンスとは、サイエンスなんですね。サイエンスには、人文科学、社会科学、自然科学と色々ありますが、データサイエンスはデータ科学ですので、新しいジャンルの科学、つまり、第4の科学となってきます。でもそれって、当たり前の能力なんですよ。データサイエンスをがっちり身に着けたらラッキー、と言う時代はもうすぐ終わりますし、データサイエンスを知ることで年収上がる・・・と言った安易なボーナスタイムはあと3年位で終わると思います。今後はやっていて当たり前、知っているのが前提の時代になります。
データサイエンスの基礎を身につける、勉強するというのはそんなに難しい話ではないので、さっさとやって物事をちゃんと科学的な目で見つめて仕事をした方が良いとは思います。
―それは中長期で見ても会社や国の競争力向上につながると。
ただ、そうは言っても、データサイエンティストの仕事は何ですかと言われた時に、データリテラシーですという僕は極めて少ない派閥の人間です。
―メジャーは別ですか。
メジャーは別ですね。分析です。
―そこが誤解の根源かもしれないですね。マジシャンみたいな分析家さんがいれば、腐った食材でもスペシャルな料理に変わってしまうと。
そういう事です。基本的に死んだ魚は蘇りません。でもデータサイエンティストに対する期待と言うのは、死んだ魚を蘇らせてください、と言うものが多いのです。
それは無理なはずなのですが、それを出来ると豪語している人間が、メディアで活躍しています。そこが問題ですよね。
そうではなくて、データサイエンスに関してのより正しい理解が広まり、みんながデータサイエンスをもっと使えるようになれば、たくさんの場面でより良い選択が出来るようになるのにな、と思いますよね。
―ありがとうございました!
参考情報
松本健太郎さんのFacebookアカウント
https://www.facebook.com/kentaro.matsumoto.0716
松本さんの最新刊
「データサイエンス『超』入門 嘘をウソと見抜けなければ、データを扱うのは難しい」 (毎日新聞出版)
データサイエンス「超」入門 嘘をウソと見抜けなければ、データを扱うのは難しい
- 作者: 松本健太郎
- 出版社/メーカー: 毎日新聞出版
- 発売日: 2018/09/28
- メディア: 単行本
- この商品を含むブログを見る