【Scikit-learn】ボストン住宅価格のデータで標準化と正規化の効果を可視化［Python］

2021年1月25日2022年12月9日

URLをコピーしました！

機械学習ライブラリScikit-learn

前回、機械学習ライブラリScikit-learnのボストンの住宅価格を予想するのにデータを標準化、正規化をした後、RidgeモデルとSVRモデルで機械学習をしてみました。

LinearRegressionとSVRで機械学習

次のセルでは先ほど作成した正規化あるなしの元データを学習用データセットとテスト用データセットに分けます。

その後、LinearRegressionモデルとSVR rbfモデルを使って機械学習させ、スコアを表示します。

まずはライブラリのインポートから。

データを分割する「train_test_split」、機械学習モデル「LinearRegression」と「SVR」、そしてスコアを計算する「r2_score」をインポートします。

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.svm import SVR
from sklearn.metrics import r2_score

正規化あるなしそれぞれのデータを学習用データセットとテスト用データセットに分割します。

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, train_size=0.8)
x_norm_train, x_norm_test, y_norm_train, y_norm_test = train_test_split(x_norm, y, test_size=0.2, train_size=0.8)

それぞれのモデルと学習用データセットを使って機械学習させたのち、テスト用データセットでボストン住宅価格を予想し、予想精度のスコアを計算します。

model_lr = LinearRegression()
model_lr.fit(x_train, y_train)
pred_lr = model_lr.predict(x_test)
print(r2_score(y_test, pred_lr))

model_norm_lr = LinearRegression()
model_norm_lr.fit(x_norm_train, y_norm_train)
pred_norm_lr = model_norm_lr.predict(x_norm_test)
print(r2_score(y_norm_test, pred_norm_lr))

model_svr_rbf = SVR(kernel='rbf', gamma="scale")
model_svr_rbf.fit(x_train, y_train)
pred_svr_rbf = model_svr_rbf.predict(x_test)
print(r2_score(y_test, pred_svr_rbf))

model_norm_svr_rbf = SVR(kernel='rbf', gamma="scale")
model_norm_svr_rbf.fit(x_norm_train, y_norm_train)
pred_norm_svr_rbf = model_norm_svr_rbf.predict(x_norm_test)
print(r2_score(y_norm_test, pred_norm_svr_rbf))

全部合わせるとこんな感じです。

＜セル３＞

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.svm import SVR
from sklearn.metrics import r2_score

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, train_size=0.8)
x_norm_train, x_norm_test, y_norm_train, y_norm_test = train_test_split(x_norm, y, test_size=0.2, train_size=0.8)

model_lr = LinearRegression()
model_lr.fit(x_train, y_train)
pred_lr = model_lr.predict(x_test)
print(r2_score(y_test, pred_lr))

model_norm_lr = LinearRegression()
model_norm_lr.fit(x_norm_train, y_norm_train)
pred_norm_lr = model_norm_lr.predict(x_norm_test)
print(r2_score(y_norm_test, pred_norm_lr))

model_svr_rbf = SVR(kernel='rbf', gamma="scale")
model_svr_rbf.fit(x_train, y_train)
pred_svr_rbf = model_svr_rbf.predict(x_test)
print(r2_score(y_test, pred_svr_rbf))

model_norm_svr_rbf = SVR(kernel='rbf', gamma="scale")
model_norm_svr_rbf.fit(x_norm_train, y_norm_train)
pred_norm_svr_rbf = model_norm_svr_rbf.predict(x_norm_test)
print(r2_score(y_norm_test, pred_norm_svr_rbf))

実行結果
0.6229646224173353
0.6319815322077402
0.5673322250620585
0.7654432098361073

スコアとしては前回と同様、LinearRegressionでは正規化あるなしであまり違いはなく、SVR rbfモデルでは正規化することで大きく改善しています。

LinearRegressionモデルの結果をグラフ化してみる

それでは今回の目的である可視化をしてみましょう。

まずはLinearRegressionの結果をグラフにプロットしてみます。

今回はX軸を正解値、Y軸を予測値としてプロットします。

まずはmatplotlibのインポート、そしてjupyter notebook上で表示できるようマジックコマンドを入力します。

from matplotlib import pyplot as plt
%matplotlib inline

次はグラフのプログラムを書いていきます。

fig = plt.figure(figsize=(8,6))
plt.clf()

plt.scatter(y_test, pred_lr, label="LR")
plt.scatter(y_norm_test, pred_norm_lr, label="LR_normalized")

plt.xlim(0, 55)
plt.ylim(0, 55)

plt.legend()

「fig = plt.figure(figsize=(8,6))」でグラフサイズを規定しています。

「plt.clf()」でグラフエリアのクリア。

「plt.scatter(y_test, pred_lr, label=”LR”)
plt.scatter(y_norm_test, pred_norm_lr, label=”LR_normalized”)」でデータを散布図としてプロット。

「plt.xlim(0, 55)
plt.ylim(0, 55)」でX軸、Y軸の範囲を指定しています。

最後の「plt.legend()」で凡例の表示です。

合わせてみるとこんな感じになります。

＜セル４＞

from matplotlib import pyplot as plt
%matplotlib inline

fig = plt.figure(figsize=(8,6))
plt.clf()

plt.scatter(y_test, pred_lr, label="LR")
plt.scatter(y_norm_test, pred_norm_lr, label="LR_normalized")

plt.xlim(0, 55)
plt.ylim(0, 55)

plt.legend()

実行結果

それではまずはこのデータを解析していきましょう。

このデータの見方ですが、X軸に正解値、Y軸に予測値となっているので、斜めの直線（青線）に近いほど、正解に近いと言えます。

このLinerRegressionモデルの場合、１０から２０辺りの予想が少し高めに出てしまっており（赤丸）、また４０から５０辺りの予想が少し低めに出てしまっています（緑丸）。

SVR rbfモデルの結果をグラフ化してみる

それではSVR rbfモデルではどうでしょうか。

こちらもLinearRegressionモデルと同様にして、グラフ化してみましょう。

ただしmatplotlibはもうインポートしてあるので、ここでは記載する必要はありません。

ということでこんな感じ。

＜セル５＞

fig = plt.figure(figsize=(8,6))
plt.clf()

plt.scatter(y_test, pred_svr_rbf, label="SVR rbf")
plt.scatter(y_norm_test, pred_norm_svr_rbf, label="SVR rbf normalized")

plt.xlim(0, 55)
plt.ylim(0, 55)

plt.legend()

実行結果