しょうちゃんのつれづれ日記

日々のお仕事、趣味の将棋と音楽関連(ピアノ・作曲)、読んだ本の感想および社会問題や国内外の政治・経済等に対する批判的な論評(ショウノミクス)などの内容が中心になります。

統計学とデータサイエンスの違い

本日は統計学とデータサイエンスの違いについて考えてみたいと思います。
私が以前に感じていたのは、入力を1単位変えた時の出力の変化の度合いが分かるという要因分析やルール抽出が可能なのが統計学、という考えです。流行の深層学習は予測性能が高いがブラックボックスなので当てはまる部分もありますが、樹形モデルは簡単なif...then...文でルール抽出が可能です。
昨日のシンポジウムで出ていたのは、特定の確率分布に基づく推論が統計学という意見で、もっともだと思いましたが、教師付きニューラルネットの一種であるradial basis function networkやkernel法など分布形を用いることもありますし、セミパラメトリックな手法はどうなのか?と疑問に感じる点もあります。
私の理解は両者に明確な違いはなく、統計学という言葉は古めかしい印象を与えがちだが、「データサイエンス」「データサイエンティスト」というネーミングはかっこいい!ので、最近多用されているのではないか?ということです。
近々データサイエンス検定が始まるそうですので、統計検定の問題と見比べてみたらその違いが分かるかもしれない、と考えています。