【Scikit-learn】機械学習用データの標準化（Standardization）と正規化（Normalization）［Python］

2021年1月13日2022年12月9日

URLをコピーしました！

機械学習ライブラリScikit-learn

前回、機械学習ライブラリScikit-learnのボストンの住宅価格を予想するのにRidgeRegressionモデルとSVRモデルを使って機械学習してみました。

標準化（Standardization）、正規化（Normalization）

ということで標準化、正規化を試していきたいのですが、まずはそれぞれがどんな操作なのか簡単に解説していきましょう。

まず標準化（Standardization）ですが、これは「平均値を０として、標準偏差を１とする」方法です。

こうすることにより、データのばらつきの大きさに依存したデータに変換することができます。

正規化というのは定義があいまいなのですが、よく使われるのは「最大値を１に最小値を０にする」といった処理です。

要するにどこかに基準をおいて、データを変換するというのが正規化にというようです。

詳しく計算式など知りたい方は、こちらのサイトをご覧ください。

WATLAB -Python, 信号処理, 画像処…

Python/sklearnで学習データの前処理！標準化と正規化機械学習を使って学習や予測を行う際は、データの前処理は欠かすことのできないプロセスです。ここではデータの標準化と正規化の概要と必要性、Pythonとscikit-learnによる…

なかなか文章だけでは分かりにくいと思いますので、まずは標準化、正規化したデータをみてもらいましょう。

プログラムは後で記載しますので、まずはどんな感じになるのかを掴んでみてください。

ボストン住宅価格のLSTAT（低所得者の割合）のデータを何もしていないデータ（None）と標準化したデータ（Standardied）、正規化したデータ（Normalized）の3種類のデータを使ってグラフを描いてみます。

何もしていないデータ（None：青色の点）に比べると、標準化したデータ（Standardized：橙色の点）と正規化したデータ（Normalized：緑色の点）は０近くに集まっているのが分かります。

さらに０付近を拡大してみるとこんな感じです。

標準化したデータ（Standardized：橙色の点）は０を中心に左右に広がっていますが、正規化したデータ（Normalized：緑色の点）は０から１の間に全てのデータが集まっています。

ボストン住宅価格のCRIM（犯罪率）、RM（平均部屋数）、LSTAT（低所得者の割合）のデータを一つのグラフにして、それぞれ何もしていないデータと標準化したデータ、正規化したデータのグラフを描いてみます。

まずは何もしていないデータ。

次に標準化したデータ。

最後に正規化したデータ。

何もしていないデータでは、CRIM（青色）とRM（橙色）の点の広がり方が全く違っていたのに対し、標準化や正規化したデータでは同じような広がり方をしています。

このようにして違う性質（桁数だったり、広がり方だったり）をもつデータを同じように扱えるようにする処理が標準化だったり、正規化というわけです。

プログラムの解説：標準化、正規化

それでは標準化、正規化を比較したグラフを書くプログラムを解説していきます。

まずはライブラリのインポートです。

標準化、正規化のために「sklearn.preprocessing」の「StandardScaler」と「MinMaxScaler」をインポートします。

from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler

次にボストン住宅価格のデータセットのうち、使うデータのみ変数に格納します。

xには「CRIM（犯罪率）」、「RM（平均部屋数）」、「LSTAT（低所得者の割合）」を格納し、yに「MEDV（住宅価格）」を格納しました。

x = df.loc[:, ["CRIM", "RM", "LSTAT"]]
y = df.loc[:, "MEDV"]

次にデータを標準化していきます。

標準化のコマンドもこれまでやってきた機械学習のコマンドと似ていて、まずはモデルの読み込み「std_model = StandardScaler()」、そして処理「x_std = std_model.fit_transform(x)」となります。

std_model = StandardScaler()
x_std = std_model.fit_transform(x)

次は正規化です。

正規化も標準化と同様、モデルを読み込み、処理をするという形です。

norm_model = MinMaxScaler()
x_norm = norm_model.fit_transform(x)

標準化と正規化したデータを扱いやすいようにPandasのデータフレームに格納します。

std = pd.DataFrame(x_std, columns=["CRIM_std", "RM_std", "LSTAT_std"])
norm = pd.DataFrame(x_norm, columns=["CRIM_norm", "RM_norm", "LSTAT_norm"])

まずはここまででまとめてみましょう。

＜セル２＞

from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler

x = df.loc[:, ["CRIM", "RM", "LSTAT"]]
y = df.loc[:, "MEDV"]

std_model = StandardScaler()
x_std = std_model.fit_transform(x)

norm_model = MinMaxScaler()
x_norm = norm_model.fit_transform(x)

std = pd.DataFrame(x_std, columns=["CRIM_std", "RM_std", "LSTAT_std"])
norm = pd.DataFrame(x_norm, columns=["CRIM_norm", "RM_norm", "LSTAT_norm"])

実行結果

実行しても特に何も出てきませんが、エラーが出てこなければ大丈夫でしょう。

プログラムの解説：グラフ表示

次はそれぞれのデータをグラフ表示していきます。

今回は「matplotlib」を使うので、「from matplotlib import pyplot as plt」としてインポート、そしてグラフ表示のためのマジックコマンド「%matplotlib inline」を忘れずに。

from matplotlib import pyplot as plt
%matplotlib inline

最初は「LSTAT（低所得者の割合）」の何もしていないデータ、標準化したデータ、正規化したデータのグラフです。

fig = plt.figure(figsize=(8,6))
plt.clf()

plt.scatter(df["LSTAT"], y, label="None")
plt.scatter(std["LSTAT_std"], y, label="Standardized")
plt.scatter(norm["LSTAT_norm"], y, label="Normalized")

plt.tick_params(labelsize=15)
plt.xlabel("LSTAT", fontsize=15)
plt.ylabel("MEDV", fontsize=15)
plt.legend(fontsize=15)

「fig = plt.figure(figsize=(8,6))」でグラフを表示する画面の作成。

「plt.clf()」で一旦グラフ表示画面をクリアします。

そして「plt.scatter(x, y, label=”Name”)」でそれぞれのデータをプロットしていきます。

ここでは何もしていないデータ「df[“LSTAT”]」、標準化したデータ「std[“LSTAT_std”]」、正規化したデータ「norm[“LSTAT_norm”]」の3種類をプロットしています。

plt.scatter(df["LSTAT"], y, label="None")
plt.scatter(std["LSTAT_std"], y, label="Standardized")
plt.scatter(norm["LSTAT_norm"], y, label="Normalized")

「plt.tick_params(labelsize=15)」で軸の数値のフォントサイズを「15」に。

「plt.xlabel(“LSTAT”, fontsize=15)」でX軸名を「LSTAT」にして、フォントサイズを「15」に。

「plt.ylabel(“MEDV”, fontsize=15)」でY軸名を「MEDV」にして、フォントサイズを「15」に。

最後に「plt.legend(fontsize=15)」で凡例を表示して、フォントサイズを「15」にしています。

次に同じデータですが、X軸方向に拡大したグラフを表示するのはこうなります。

fig = plt.figure(figsize=(8,6))
plt.clf()

plt.scatter(df["LSTAT"], y, label="None")
plt.scatter(std["LSTAT_std"], y, label="Standardized")
plt.scatter(norm["LSTAT_norm"], y, label="Normalized")

plt.tick_params(labelsize=15)
plt.xlabel("LSTAT", fontsize=15)
plt.ylabel("MEDV", fontsize=15)
plt.legend(fontsize=15)

plt.xlim(-2,4)

違うのは最後の1行。

「plt.xlim(-2,4)」とすることで、表示するX軸の範囲を設定しています。

次は同様にして「CRIM（犯罪率）」、「RM（平均部屋数）」、「LSTAT（低所得者の割合）」の何もしていないデータを同じグラフにプロット。

fig = plt.figure(figsize=(8,6))
plt.clf()

plt.scatter(df["CRIM"], y, label="CRIM_None")
plt.scatter(df["RM"], y, label="RM_None")
plt.scatter(df["LSTAT"], y, label="LSTAT_None")

plt.tick_params(labelsize=15)
plt.xlabel("Values", fontsize=15)
plt.ylabel("MEDV", fontsize=15)
plt.legend(fontsize=15)

さらに同様にして「CRIM（犯罪率）」、「RM（平均部屋数）」、「LSTAT（低所得者の割合）」の標準化したデータを同じグラフにプロット。

fig = plt.figure(figsize=(8,6))
plt.clf()

plt.scatter(std["CRIM_std"], y, label="CRIM_std")
plt.scatter(std["RM_std"], y, label="RM_std")
plt.scatter(std["LSTAT_std"], y, label="LSTAT_std")

plt.tick_params(labelsize=15)
plt.xlabel("Values_std", fontsize=15)
plt.ylabel("MEDV", fontsize=15)
plt.legend(fontsize=15)

さらにさらに同様にして「CRIM（犯罪率）」、「RM（平均部屋数）」、「LSTAT（低所得者の割合）」の正規化したデータを同じグラフにプロット。

fig = plt.figure(figsize=(8,6))
plt.clf()

plt.scatter(norm["CRIM_norm"], y, label="CRIM_norm")
plt.scatter(norm["RM_norm"], y, label="RM_norm")
plt.scatter(norm["LSTAT_norm"], y, label="LSTAT_norm")

plt.tick_params(labelsize=15)
plt.xlabel("Values_norm", fontsize=15)
plt.ylabel("MEDV", fontsize=15)
plt.legend(fontsize=15)

全部合わせてみるとこんな感じです。

＜セル３＞

from matplotlib import pyplot as plt
%matplotlib inline

fig = plt.figure(figsize=(8,6))
plt.clf()

plt.scatter(df["LSTAT"], y, label="None")
plt.scatter(std["LSTAT_std"], y, label="Standardized")
plt.scatter(norm["LSTAT_norm"], y, label="Normalized")

plt.tick_params(labelsize=15)
plt.xlabel("LSTAT", fontsize=15)
plt.ylabel("MEDV", fontsize=15)
plt.legend(fontsize=15)

fig = plt.figure(figsize=(8,6))
plt.clf()

plt.scatter(df["LSTAT"], y, label="None")
plt.scatter(std["LSTAT_std"], y, label="Standardized")
plt.scatter(norm["LSTAT_norm"], y, label="Normalized")

plt.tick_params(labelsize=15)
plt.xlabel("LSTAT", fontsize=15)
plt.ylabel("MEDV", fontsize=15)
plt.legend(fontsize=15)

plt.xlim(-2,4)

fig = plt.figure(figsize=(8,6))
plt.clf()

plt.scatter(df["CRIM"], y, label="CRIM_None")
plt.scatter(df["RM"], y, label="RM_None")
plt.scatter(df["LSTAT"], y, label="LSTAT_None")

plt.tick_params(labelsize=15)
plt.xlabel("Values", fontsize=15)
plt.ylabel("MEDV", fontsize=15)
plt.legend(fontsize=15)

fig = plt.figure(figsize=(8,6))
plt.clf()

plt.scatter(std["CRIM_std"], y, label="CRIM_std")
plt.scatter(std["RM_std"], y, label="RM_std")
plt.scatter(std["LSTAT_std"], y, label="LSTAT_std")

plt.tick_params(labelsize=15)
plt.xlabel("Values_std", fontsize=15)
plt.ylabel("MEDV", fontsize=15)
plt.legend(fontsize=15)

fig = plt.figure(figsize=(8,6))
plt.clf()

plt.scatter(norm["CRIM_norm"], y, label="CRIM_norm")
plt.scatter(norm["RM_norm"], y, label="RM_norm")
plt.scatter(norm["LSTAT_norm"], y, label="LSTAT_norm")

plt.tick_params(labelsize=15)
plt.xlabel("Values_norm", fontsize=15)
plt.ylabel("MEDV", fontsize=15)
plt.legend(fontsize=15)

実行結果