【Kaggle】タイタニック号乗客の生存予測（Ageの欠損値を修正　ランダム値編）［Python］

2021年6月11日2022年12月9日

URLをコピーしました！

Kaggle

前回は機械学習・データサイエンスのプラットフォーム「Kaggle（カグル）」の「タイタニック号乗客の生存予測」のデータセットのAgeの欠損値を一律に「30」修正してみました。

ランダム値の範囲を決める

今回はAge（年齢）の欠損値をランダムな値としてみましょう。

しかしランダムといっても200歳といった現実的にあり得ない年齢にはできません。

今回はランダム値の最大値、最小値をタイタニック号に乗船している人の年齢の最大値、最小値としましょう。

ということでまずはタイタニック号に乗船している人の年齢の最大値、最小値を取得します。

最大値、最小値などの統計値を取得する簡単な方法は「.describe()」を使うことです。

こちらの記事で紹介していますので、良かったらどうぞ。

欠損値にランダムな値を代入する

次にデータセットの欠損値に0.17から80までのランダムな値を代入していきます。

＜セル３＞

import random
import numpy as np

for i in range(len(train)):
    if np.isnan(train.iloc[i, 5]) == True:
        train.iloc[i, 5] = random.uniform(0.17, 80)
        
for i in range(len(test)):
    if np.isnan(test.iloc[i, 4]) == True:
        test.iloc[i, 4] = random.uniform(0.17, 80)

実行結果

ここでは値を代入するだけなので、実行しても何も表示されません。

少しややこしいので順に説明していきましょう。

まず最初の行の「for i in range(len(train)):」で訓練用データセットの行数を変数iに格納していきます。

次に「if np.isnan(train.iloc[i, 5]) == True:」で欠損値の判定を行っています。

その中で「train.iloc[i, 5]」という部分はi行目の”Age”の値を示しています。

train.iloc[i, “Age”]のように行”数”と列”名”を同時に使うことはできないため、ここでは行”数”と列”数”に合わせています。

またここでは「.isnull()」ではなくて、「.isnan()」を使っています。

まず「.isnull()」はPandasの関数ですが、Pandasのデータフレーム中の一つの値を取り出した時、その値はPandasのデータフレーム型ではなく、str型だったり、int型、numpy型といった型になります。

今回、「Age」の値は「numpy型」だったため、Pandasの欠損値判定の関数である「.isnull()」ではなく、numpyの欠損値判定の関数「.isnan()」を用いたということです。

そのためこのセルの最初で「import numpy as np」としてnumpyをインポートしています。

次に「train.iloc[i, 5] = random.uniform(0.17, 80)」として、指定した場所（i行目のAgeの列）に、「random.uniform(0.17, 80)」としてランダムな値を代入しています。

またテスト用データセット（test）では、Ageを指定するための列数が違うことに注意してください。

先ほどのtrainでは6列目（つまり5）がAgeでしたが、testでは5列目（つまり4）がAgeの列になっています。

これで欠損値が無くなったか確認してみましょう。

＜セル４＞

train.isnull().sum()

実行結果
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age              0
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         0
dtype: int64

＜セル５＞

test.isnull().sum()

実行結果
PassengerId      0
Pclass           0
Name             0
Sex              0
Age              0
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          327
Embarked         0
dtype: int64

もう一つ年齢構成が歪な形（ある年齢だけ突出している等）になっていないか、ヒストグラムを描いて確認してみます。

＜セル６＞

train["Age"].hist()

実行結果

＜セル７＞

test.isnull().sum()

実行結果

特に歪な形になっていないようなので、これで機械学習・予測をしていきましょう。

機械学習・予測

ここのプログラムは前回と変わりありません。

＜セル８＞

from sklearn.svm import LinearSVC
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

x = train.loc[:, ["Pclass", "Sex", "SibSp", "Parch", "Fare", "Embarked", "Age"]]
y = train["Survived"]

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, train_size=0.8)

model = LinearSVC(max_iter=10000000)
model.fit(x_train, y_train)
pred = model.predict(x_test)

print(accuracy_score(y_test, pred))

実行結果
0.7486033519553073

これまでのこの時点でのスコアはこんな感じでした。