【Scikit-learn】手書き数字のデータセットの機械学習モデルを検討［Python］

2021年4月21日2022年12月9日

URLをコピーしました！

機械学習ライブラリScikit-learn

前回、Matplotlibのimshowに関して解説を行いました。

あわせて読みたい

【Python】imshowで二次元リストを画像表示：補完（interpolation） Matplotlibで二次元リストを画像表示前回、Matplotlibライブラリのimshowのうち、カラーマップの範囲指定、アスペクト、開始位置を解説しました。今回は補完（interpo…

今回からはScikit-learnの手書き数字のデータセットの機械学習を進めていきたいと思います。

と言っても、手書き数字のデータ、つまりは画像の機械学習になります。

そのため、これまでの数値の予想で使ってきた「回帰」とはまた違った機械学習モデルが必要になります。

ということで今回は手書き数字のデータを扱うのに、どの機械学習モデルを検討すべきか考えていきましょう。

アルゴリズム・チートシート

前に紹介した機械学習モデルのマップ「アルゴリズム・チートシート」から、手書き数字のデータセットに良さそうなモデルを探していきましょう。

ちなみに前の記事はこちらです。

良かったら、こちらも読んでみてください。

あわせて読みたい

【Scikit-learn】ボストン住宅価格の最適な機械学習モデルを検討［Python］機械学習ライブラリScikit-learn 前回、機械学習ライブラリScikit-learnのボストンの住宅価格を3種類の特徴量と6種類の特徴量を使って機械学習させ、評価してみました。…

そしてアルゴリズム・チートシートはこちら。

元の画像はこちらのサイトにあります。

「START」から順に見ていきましょう。

最初の質問は「50サンプルよりデータが多くあるかどうか」です。

手書き数字のデータセットの中身を確認した際、データは1797個あったので、ここは「Yes」です。

あわせて読みたい

【Scikit-learn】手書き数字のデータセットを確認［Python］機械学習ライブラリScikit-learn 前回、前々回はちょっと寄り道してMatplotlibで円グラフを表示する方法を解説しました。今回から再度、機械学習ライブラリScikit-lear…

次の質問は「カテゴリーを予想するものかどうか」です。

手書きで書かれた数字を０から９までの数字にカテゴリー化すると考えると「Yes」ですね。

次の質問は「ラベルされたデータがあるか」、つまり答えが分かっているデータを持っているかどうかということです。

手書き数字のデータセットには答えも含まれているので「Yes」です。

そうしてたどり着いたのが「classification：分類」です。

Classification：分類

今度は「Classification：分類」の中を見ていきましょう。

最初は「データ数が100K（10万）より少ないかどうか」です。

10万以上データがある場合は「No」に進み、「SGD Classifier」という機械学習モデルが第一候補となります。

また「SGD Classifier」でよい予想精度とならなかった場合、「kernel approximation」という機械学習モデルを試すという流れになるようです。

最初の分岐点で、逆にデータ数が10万以上ない場合は「Yes」に進み、「LinearSVC」を試してみるのがいいようです。

そして「LinearSVC」で上手くいかなかった場合、テキストデータ（文章データということでしょう）なら「Naive Bayes」を試してみる。

テキストデータ出なければ、「KNeighbors Classifier」を試し、それでもダメなら「SVC」、「Ensemble Classifiers」を試すという流れになるようです。

今回の手書き数字のデータセットでは、データ数は1797個なので、まずは「LinearSVC」を試し、ダメなら「KNeighbors Classifier」、さらにダメなら「SVC」、「Ensemble Classifier」を試すのが良さそうですね。

ということで次回は第一候補の「LinearSVC」を試してみることにしましょう。

あわせて読みたい

【Scikit-learn】手書き数字のデータセットでLinearSVCモデルを検討［Python］機械学習ライブラリScikit-learn 前回、手書き数字のデータセットのための機械学習モデルを何にしたらよいか、アルゴリズム・チートシートで確認しました。その結果、…

ではでは今回はこんな感じで。

よかったらシェアしてね！

URLをコピーしました！

【Scikit-learn】手書き数字のデータセットの機械学習モデルを検討［Python］

機械学習ライブラリScikit-learn

アルゴリズム・チートシート

Classification：分類

コメント

コメントするコメントをキャンセル

【Scikit-learn】手書き数字のデータセットの機械学習モデルを検討［Python］

機械学習ライブラリScikit-learn

アルゴリズム・チートシート

Classification：分類

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル