こんにちは、ツヨシです。 最近は断酒をしてみて、すこぶる朝が快調です。
たまに断酒をやるのですが、酒はないほうがいいですね。 断酒期間はだいたい3日くらいでストップするのですが、それでもいいものです。
まあ、いつまで続けられることやら。。。
Kagglerになるための戦略
前回、データサイエンティストになりKaggleをがんばってみようという記事を書きました。
だいぶ時間が経ちましたが、そこから進捗がどんな感じかというと牛歩戦術を使い多少進んでいます。
このデータサイエンティストになるために何が必要かということを考えると学ぶことが多すぎてちょっと先が見えない感じがしてきています。。。
とはいっても、やらないと先に進めないので、少しづつですが進めているのですがなかなか難しいですね。
そこで、今日は学ぶべきことなどをまとめてみました。
基礎作りを初めに行う
「Kaggleスタートブック」を進めているのですが、内容を理解しようとしているのですが、なかなかすすみません。
というのも、いろんなところで基礎が足りていないことが原因のようです。
例えばプログラミングをするときにはPythonを使うのですが、これの基本的な文法の理解が足りていないだとか、Pandas、Numpy、Matplotlib、Seaborn、scikit-learnなどのライブラリの使い方がわからない、大量のデータを処理するための特徴量エンジニアリングや機械学習のためのアルゴリズムなどの理解が足りないなどです。
これら1つ1つのテーマを学ぶだけで膨大な必要になります。しかも新しい事はどんどん出てくる。これは大変ですね。Pythonは多少暑かったことはあるのですが、遊び程度なので深くやらないといけないです。
こういった場合に大事なのが基礎の習得です。とりあえず基礎をつけておけば応用の部分は基礎を組み合わせることでなんとかなります。 なので、まず必要な習得項目をピックアップしてそれに対して基礎をある程度固めたいと思います。
学習項目のピックアップ
ざっと調べた感じKagglerになるためにの基礎の習得項目としては以下のものが挙げられます。
これらを最低限は習得したいのですが、まずはKaggleを初めてみることから行いたいと思います。 そのためにも「Kaggleスタートブック」を進めてめています。
ほとんど写経しかしておらず、疑問点など無視してやっています。疑問点としてはPythonのプログラムやライブラリだったり、機械学習についてです。いままでこういった疑問は無視してやっていましたが、それでは意味ないなと感じていまして、疑問点やわからないことは立ち止まって少しずつでもよいので調べていくと方向転換をしようと思います。
なので、Kaggleの進め方やPython、機械学習で引っかかることは「Kaggleスタートブック」をやりつつピックアップしていきます。
とはいっても、やはりPythonのプログラミングについて理解がたりていないなと思っていてそこを補強していこうと思い「詳細Python3入門ノート」を参考書として買ってみました。
- 作者:大重 美幸
- 発売日: 2017/05/24
- メディア: 単行本
まださらっとしか読んでいないのですが、初学者には良い教材かと思います。後半では機械学習についても書かれているので、とりあえずこれをやってPythonの基礎習得としたいです。
また、色々と調べていくとDockerを使って環境構築を行う場合もあるようで、Dockerについても学習しています。 これはUdemyで「米国AI開発者がゼロから教えるDocker講座」という良さげな講座を見つけたのでこれをやっていきたいと思います。
あとは統計学ですね。これについては統計検定の2級を習得するつもりで学習を進めていこうと思います。2級は大学レベルなので、まずは3級ですかね。参考資料として統計検定の推奨参考書の「データの分析」を読んでいこうと思います。
改訂版 日本統計学会公式認定 統計検定3級対応 データの分析
- 発売日: 2020/02/08
- メディア: 単行本
進め方のまとめ
- Kaggle全体として弱点を見つけるために「Kaggleスタートブック」を進める
- Pythonプログラミングの基礎の習得のために「詳細Python3入門ノート」をする
- 機械学習の環境構築のために「米国AI開発者がゼロから教えるDocker講座」をする
- 統計学の学習のために「データの分析」を読む
とりあえずはこんな感じで進めつつ、あらたに必要なことがあればそれを取り入れつつ進めていきたいと思います。