【Scikit-learn】ボストンの住宅価格を線形回帰（Linear Regression）モデルを使って機械学習［Python］

2020年12月26日2022年12月9日

URLをコピーしました！

機械学習ライブラリScikit-learn

前回、機械学習ライブラリScikit-learnのボストンの住宅価格と他の特徴量をグラフにして、どの特徴量が関連しているのか検討しました。

訓練用データとテスト用データに分割

まずは機械学習に使う特徴量だけ変数x、yに格納して、訓練用データとテスト用データに分割していきましょう。

最初はこちらの３つの特徴量で機械学習を行なってみましょう。

犯罪率（CRIM）
平均部屋数（RM）
低所得者の割合（LSTAT）

これら３つを変数xに、予想する値である住宅価格を変数yに格納します。

x = df.loc[:, ["CRIM", "RM", "LSTAT"]]
y = df.loc[:, "MEDV"]

そして「train_test_split」を使って、データを訓練用データとテスト用データに分割します。

from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, train_size=0.8)

この2つのプログラムを合わせて、最後にそれぞれのデータのサイズを表示してみます。

＜セル２＞

from sklearn.model_selection import train_test_split

x = df.loc[:, ["CRIM", "RM", "LSTAT"]]
y = df.loc[:, "MEDV"]

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, train_size=0.8)

print(len(x_train), len(x_test), len(y_train), len(y_test))

実行結果
404 102 404 102

もともと全体として506個のデータがあり、８割を訓練用データ（train_size=0.8）、２割をテスト用データ（test_size=0.2）としているので、訓練用データは404個、テスト用データは102個で合っていますね。

ということでデータを分割することができました。

線形回帰（Linear Regression）とは？

前にiris（アヤメ）の分類を行った時は、SVM（サポートベクターマシン）という分類を行うための機械学習モデルを用いました。

今回は分類をしたいわけではなく、ある条件の住宅の価格を予想したいということで、回帰（Regression）というモデルを使います。

回帰を今回のデータを用いて説明すると、例えば犯罪率と住宅の価格には関連性がありました。

それは住宅の価格が高くなると、犯罪率が低くなるというものでした。

そこで犯罪率と住宅の価格の関係性を数式とすることが回帰（もしくは回帰分析）で、できた数式が回帰式です。

このようにxを１つ、yを１つで回帰式を作るのを「単回帰分析」、xが２つ以上、yが１つで回帰式を作るのを「重回帰分析」といいます。

またその回帰式が直線の場合は「線形回帰（Linear regression）」、曲線の場合は「非線形回帰（Non-linear regression）」となります。

私が理解していることを、大まかに解説してみましたが、もっと詳しく知りたい方はご自分で調べてみてください。

今回は「犯罪率」、「平均部屋数」、「低所得者の割合」の３つを使うので重回帰分析です。

また回帰式を直線とする「線形回帰」を使ってみましょう。

線形回帰モデルを使って機械学習

Scikit-learnの線形回帰モデル（Linear Regression）を使用するには、まずはモデルのインポートが必要になります。

from sklearn.linear_model import LinearRegression

機械学習させる方法はSVM（サポートベクターマシン）を使った時と同様です。

model = LinearRegression()
model.fit(x_train, y_train)

とすることでモデルを決定し、機械学習をさせることができます。

そしてテストデータを使って、住宅価格を予想させるのも同じです。

ということでここまでをまとめてみるとこんな感じ。

＜セル３＞

from sklearn.linear_model import LinearRegression

model = LinearRegression()
model.fit(x_train, y_train)

y_pred = model.predict(x_test)

print(y_pred)

実行結果
[20.78955514 29.27476045 30.48163258 21.09758014 21.1901468  30.50526733
 18.28901593 35.57862372 22.10217807 22.10107328 17.71816556 26.7754292
 19.04169421 20.3779374  35.24033005 18.76414184 16.53819036 20.68638404
 16.93828298 17.97753394 26.2870573  16.40361813 30.46544387 37.14450504
  8.40605067 25.93035242 18.76857237 27.57076017 34.80511347 18.4986455
（以下略）

出てきた数字がそれぞれのデータから予想された住宅価格です。

ここまではSVM（サポートベクターマシン）の時と同じなのですが、評価のコマンドは違います。

ちなみに前に使った「accuracy_score」を使ってみるとこんな感じ。

from sklearn.linear_model import LinearRegression
from sklearn.metrics import accuracy_score

model = LinearRegression()
model.fit(x_train, y_train)

y_pred = model.predict(x_test)
accuracy_score(y_test, y_pred)

実行結果
---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-13-2a2caf3a24e4> in <module>
      6 
      7 y_pred = model.predict(x_test)
----> 8 accuracy_score(y_test, y_pred)

/opt/anaconda3/lib/python3.7/site-packages/sklearn/metrics/classification.py in accuracy_score(y_true, y_pred, normalize, sample_weight)
    174 
    175     # Compute accuracy for each possible representation
--> 176     y_type, y_true, y_pred = _check_targets(y_true, y_pred)
    177     check_consistent_length(y_true, y_pred, sample_weight)
    178     if y_type.startswith('multilabel'):

/opt/anaconda3/lib/python3.7/site-packages/sklearn/metrics/classification.py in _check_targets(y_true, y_pred)
     86     # No metrics support "multiclass-multioutput" format
     87     if (y_type not in ["binary", "multiclass", "multilabel-indicator"]):
---> 88         raise ValueError("{0} is not supported".format(y_type))
     89 
     90     if y_type in ["binary", "multiclass"]:

ValueError: continuous is not supported

最後に出てきた「continuous is not supported」というのは「連続した値はサポートしていません」ということのようです。

ということで次に線形回帰モデルを使った際の評価の方法を解説していきます。

決定係数：R²

線形回帰モデルで使う評価の指標としては、決定係数（R² アール二乗）というものがあります。

この値は１に近ければ機械学習で得られた予想と本当の答えが一致していて、0に近いと一致していないという値になります。

他にも評価の値があるのですが、そちらはまた今度ということにして、今回は決定係数を使って進めていきます。

この決定係数を使う場合は、このコマンドをインポートする必要があります。

from sklearn.metrics import r2_score

そして「r2_score(答え、予想)」とすることで決定係数を計算することができます。

ということで先ほどの＜セル３＞はこんな感じになります。

＜セル３　変更＞

from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

model = LinearRegression()
model.fit(x_train, y_train)

y_pred = model.predict(x_test)
r2_score(y_test, y_pred)

実行結果
0.6321961183215488

今回は「0.632196…」ということで、そこまで1に近くないですが、0にも近くないという中途半端な値でした。

これだと傾向としては捉えられているが、値がぴったり合っているわけではないという感じでしょうか。

今回はとりあえず線形回帰モデルで機械学習できたということでここまでにしておきたいと思います。

次回はさらに関連性がありそうな3つの特徴量を加え、決定係数が１に近くか試していきたいと思います。