Kaggle
前回までScikit-learnのデータセットの紹介を行ってきました。
これまでずっと使ってきたScikit-learnのデータセットですが、もうそろそろ実践的なこともしたいなと思い始めてきました。
もちろん自分でデータを準備して、機械学習するというのも将来的にやってみたいことなのですが、なかなか個人で機械学習のための大量のデータを持っているなんてことはありませんし、準備するのもかなり大変なことでしょう。
そこで色々探してみた結果、なんと機械学習・データサイエンスのプラットフォームなるものを発見しました。
それが「Kaggle(カグル)」というサイトです。
このサイトに企業や研究者がデータを投稿して、色んな人が色んな手法で機械学習を行い、その最適なモデルを競い合うというサイトになっています。
また時には良い機械学習モデル・プログラムを構築した人には賞金が出ることもあるそうです。
さらに人の作ったモデルをみることもできるので、勉強にもなります。
何にせよ個人で機械学習をやるに当たって、困りごとの一つであるデータには事欠かなくて済みそうなので、登録してみることにしました。
Kaggleへの登録
まずはKaggleへアクセスします。
右上の「Register」をクリック。
登録の方法が表示されます。
私はメールアドレスで登録する「Register with your email」を選びました。
Googleアカウントで登録したい人は「Register with Google」を選択してください。
メールアドレスとパスワード、そして表示する名前を入力します。
規約が表示されるので、読んでOKなら、「I agree」をクリック。
すると「Verify your email」という画面に移ります。
メールアドレスの確認で、先ほど登録したメールアドレスにパスコードが記載されたメールが届きます。
メールを確認するとアルファベットや数字からなる6桁のコードが届いているはずです。
この6桁のコードを先ほどの「Verify your email」の空欄に記入し、「Next」をクリックします。
これで登録が完了しました。
このKaggleにも練習用のデータセットがいくつもありますので、まずはそれをやり、上位者との機械学習モデルとどう違うのか比較していく予定です。
そしてこの3PySciでは解説というよりも、データセットをどういじくっていったら、どういう結果になったのか、その過程を備忘録として掲載していきたいなと思います。
ということでもしかしたらいいモデルにまで到達しないかもしれないですが、それはそれで一興かなと。
何よりも機械学習・データサイエンス初心者が試行錯誤しているのを見るだけでも、同じ初心者の力になるだろうとそんな思いで進めていきます。
次回はKaggleに登録した人ほとんどの人が最初にやるだろう「タイタニック号乗客の生存予測」のデータセットを見ていきましょう。
ではでは今回はこんな感じで。
コメント