【Scikit-learn】手書き数字のデータセットでLinearSVCモデルを検討［Python］

2021年4月23日2022年12月9日

URLをコピーしました！

機械学習ライブラリScikit-learn

前回、手書き数字のデータセットのための機械学習モデルを何にしたらよいか、アルゴリズム・チートシートで確認しました。

あわせて読みたい

【Scikit-learn】手書き数字のデータセットの機械学習モデルを検討［Python］機械学習ライブラリScikit-learn 前回、Matplotlibのimshowに関して解説を行いました。今回からはScikit-learnの手書き数字のデータセットの機械学習を進めていきたい…

その結果、まずはLinearSVCを試してみるのが良さそうだという結論に至りました。

ということで今回は手書き数字のデータセットを使って、LinearSVCモデルを試してみることにしましょう。

まずはデータの読み込みから。

＜セル１＞

from sklearn.datasets import load_digits

digits = load_digits(as_frame=True)

digits.frame

実行結果

前に手書き数字のデータセットの内容を確認した際、as_frameというオプションを使うことで、Pandasのデータフレームとして読み込めるとのことだったので、今回はそのオプションを使ってみました。

あわせて読みたい

【Scikit-learn】手書き数字のデータセットを確認［Python］機械学習ライブラリScikit-learn 前回、前々回はちょっと寄り道してMatplotlibで円グラフを表示する方法を解説しました。今回から再度、機械学習ライブラリScikit-lear…

これでデータの読み込みが完了しました。

学習データと解答をリストに格納

学習させるデータをリストxと、その解答をリストyに格納していきましょう。

先ほどのデータフレームを見ると、最後の列が「target」、つまり解答になっています。

ということで、最初から最後の一つ前までの列をxに、最後の1列をyに格納していきましょう。

＜セル２＞

x = digits.frame.iloc[:, 0:-1]
y = digits.frame.iloc[:, -1]

実行結果

　実行しても何も表示されませんが、それで大丈夫です。

「.iloc[A:B, C:D]」とするとA行からB行までで、C列からD列までのデータを取得するとなります。

投稿が見つかりません。

つまり「digits.frame.iloc[:, 0:-1]」だとdigits.frameのデータフレームのうち、「:」行、つまりは全ての行で、[0:-1]列、つまりは最初から最後の一つ前までの行を取得するということになります。

また「digits.frame.iloc[:, -1]」では、digits.frameのデータフレームのうち、「:」行なので、こちらも全ての行で、「-1」列、つまり最後の行を取得するということです。

これでデータの格納が終わりました。

次はいよいよ機械学習に入っていきます。

LinearSVCで機械学習してみる

今回使う機械学習のモデルは「LinearSVC」。

まずはこちらのモデルのインポートとデータを学習用とテスト用に分割する「train_test_split」のインポート、そしてスコア計算の関数のインポートを行います。

from sklearn.svm import LinearSVC
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

上からLinearSVCのインポート、train_test_splitのインポート、スコア計算の関数のインポートです。

ただスコアの計算法はこれまで使っていた「r2_score」ではありません。

r2_scoreは回帰モデル用のスコアで今回のような分類用のスコアではありません。

そこで分類用のスコアである「accuracy_score」を使っています。

Scikit learnのこちらのページを見ると色々なスコア計算の関数が載っています。

あとは実はいつも通り、データを学習用とテスト用に分割し、モデルを読み込み、学習させ、テスト用データで評価するという流れです。

ということでこんな感じです。

＜セル３＞

from sklearn.svm import LinearSVC
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, train_size=0.8)

model = LinearSVC()
model.fit(x_train, y_train)
pred = model.predict(x_test)

print(accuracy_score(y_test, pred))

実行結果
0.9666666666666667

/opt/anaconda3/lib/python3.7/site-packages/sklearn/svm/_base.py:977: ConvergenceWarning: Liblinear failed to converge, increase the number of iterations.
  "the number of iterations.", ConvergenceWarning)

Accuracy_scoreも１に近いほど正解率が高いので、0.96666はかなり高い正解率であると言えるでしょう。

しかし何やら警告が出ています。

「increase the number of iterations」と書かれているので、前にLassoモデルの時に解説した「max_iter」の値を増やせば良さそうです。

あわせて読みたい

【Scikit-learn】糖尿病患者のデータセットでLassoモデルのオプションを検討［Python］機械学習ライブラリScikit-learn 前回、機械学習ライブラリScikit-learnの糖尿病患者のデータセットを使い、LinearRegressionモデルのオプションを試してみました。今…

試してみましょう。

from sklearn.svm import LinearSVC
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, train_size=0.8)

model = LinearSVC(max_iter=1000000)
model.fit(x_train, y_train)
pred = model.predict(x_test)

print(accuracy_score(y_test, pred))

実行結果
0.9638888888888889

今度は警告が出ずに終了しました。

しかしスコアがここまで高いとなると、今度は自分で書いた数字もちゃんと分類してくれるのではないかと期待されます。

ということで次回から自分で数字の画像を準備して、データとして読み込ませ、この機械学習データで分類させてみましょう。

次回はまずは画像の準備に関して進めていきます。

あわせて読みたい

【Scikit-learn】手書き数字のデータセットで自分で作った手書きの数字を予想（準備編）［Python］機械学習ライブラリScikit-learn 前回、機械学習ライブラリScikit-learnで手書き数字のデータセットをLinearSVCモデルを使って機械学習を試してみました。その結果、か…

ではでは今回はこんな感じで。

よかったらシェアしてね！