【Kaggle】タイタニック号乗客の生存予測（Fareの欠損値を修正　その１）［Python］

2021年5月31日2022年12月9日

URLをコピーしました！

Kaggle

前回は機械学習・データサイエンスのプラットフォーム「Kaggle（カグル）」の「タイタニック号乗客の生存予測」の生存予想データを提出し、スコアを取得してみました。

あわせて読みたい

【Kaggle】タイタニック号乗客の生存予測（予想データの提出）［Python］ Kaggle 前回は機械学習・データサイエンスのプラットフォーム「Kaggle（カグル）」の一番基本なデータセット「タイタニック号乗客の生存予測」の生存予想データを作成し…

ここからはさらに良いスコアが取れるよう、モデルを改善していく段階になります。

モデル改善の第一歩として、まずはデータ中の欠損値を妥当な値に修正していきましょう。

ということで欠損値がどの特徴量に含まれるのか確認していきます。

まずはデータの読み込みから。

今回は訓練用のデータセット（train.csv）とテスト用のデータセット（test.csv）を最初に読み込んでしまいましょう。

＜セル１＞

import pandas as pd

train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")

実行結果

実行しても特に何も起こりません。

ということで次の二つのセルでそれぞれを表示してみます。

＜セル２＞

train

実行結果

＜セル３＞

test

実行結果

そして前回に文字から数字に変更したように今回も「Sex」を変更しておきます。

＜セル４＞

train.loc[train["Sex"] == "male", "Sex"] = 0
train.loc[train["Sex"] == "female", "Sex"] = 1
test.loc[test["Sex"] == "male", "Sex"] = 0
test.loc[test["Sex"] == "female", "Sex"] = 1

実行結果

＜セル５＞

train

実行結果

<セル６>

test

実行結果

次にどの特徴量に欠損値があるか確認しておきましょう。

＜セル７＞

train.isnull().sum()

実行結果

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

＜セル８＞

test.isnull().sum()

実行結果

PassengerId      0
Pclass           0
Name             0
Sex              0
Age             86
SibSp            0
Parch            0
Ticket           0
Fare             1
Cabin          327
Embarked         0
dtype: int64

欠損値がある中で欠損値の個数が少ない順で見ると、Fare、Embarked、Age、Cabinとなります。

Cabinに関しては、訓練用データセットの891個のデータ中、687個が欠損値、そしてテスト用データセットの418個のデータ中、327個が欠損値となっています。

Cabinはちょっと修正するのは難しそうなので、Fare、Embarked、Ageの三つを修正していきます。

今回はその中でも一番欠損値の個数が少ない「Fare」を修正していきましょう。

データを修正するための情報収集

まずはどう修正するか考えるために、情報収集を行いましょう。

今回、Fareのデータの中で欠損値を含むデータの詳細を確認しましょう。

＜セル９＞

print(test[test["Fare"].isnull()])

実行結果
     PassengerId  Pclass                Name Sex   Age  SibSp  Parch Ticket  \
152         1044       3  Storey, Mr. Thomas   0  60.5      0      0   3701   

     Fare Cabin Embarked  
152   NaN   NaN        S

Fareは料金なので、この人のデータと類似するデータの人であれば、同じような料金になっていると推測されます。

ということでデータを探索していきますが、探索するデータは広い方がいいので、訓練用データセットとテスト用データセットを結合し、探索用データセットを作ります。

ただし訓練用データセットにある「Survived」のデータはテスト用データセットには含まれませんので、「Survived」を抜いたデータをテスト用データセットに連結します。

＜セル１０＞

all_data = pd.concat([train.drop(columns = "Survived"), test])

all_data

実行結果

訓練用データ891個＋テスト用データ418個＝1309個のデータとなり、ちゃんと連結できました。

Pandasのデータフレームの連結の方法はこちらの記事で解説していますので、良かったらこちらもご覧ください。

あわせて読みたい

【Pandas】データフレームの連結（concat）［Python］データ解析支援ライブラリPandas 前回はデータ解析支援ライブラリPandasのassignで列を、appendで列を追加する方法を解説しました。今回は追加するという流れでデータ…

また列や行を削除する方法はまだ解説していませんので、今後どこかの機会で解説したいと思います。

ここから類似したデータを探すため、条件を絞っていきます。

料金に直結しそうなデータとしては客室のグレード、つまり「Pclass」が大きく影響することが考えられます。

先ほどのFareが欠損したデータの人（以降、乗客No.1044と呼びます）はPclassが「３」となっているので、Pclassが「３」のデータのみに絞ります。

＜セル１１＞

fare_nan = all_data[all_data["Pclass"] == 3]

fare_nan

実行結果

1309個のデータから709個のデータへと絞り込めましたが、それでもまだまだデータ数が多いです。

ということで次は乗船地により料金が変わるだろうと踏んで、「Embarked」を乗客No.1044の「S」に絞ります。

＜セル１２＞

fare_nan = fare_nan[fare_nan["Embarked"] == "S"]

fare_nan

実行結果

495個のデータまで絞り込めましたが、まだまだ多く、決定打となるデータにはたどり着けていません。

あと絞り込みに使えそうなデータは「SibSp（兄弟姉妹の数）」、「Parch（親子供の数）」くらいでしょうか。

乗客No.1044はどちらも「0」なので、一応絞り込んでみましょう。

＜セル１３＞

fare_nan = fare_nan[(fare_nan["SibSp"] == 0) & (fare_nan["Parch"] == 0)]

fare_nan

実行結果

324個のデータまで絞り込めました。

しかしまだまだデータ数は多いです。

今データとして見えている分だけで推察すると、今絞り込んだ人たちのFare（料金）は７ドル後半から８ドル前半のようです。

もし他の人も同じような料金であれば、８ドルとしてしまっても大きなズレは生じなさそうです。

ということでここで一旦、料金の分布を見てみることにしましょう。

ヒストグラムを表示する方法はこちらの記事で解説していますので、良かったらこちらもご覧ください。

あわせて読みたい

【Pandas】グラフ表示（.plot()）［Python］データ解析支援ライブラリPandas 前回はデータ解析支援ライブラリPandasで新しくデータフレームを作成する方法を解説しました。今回はデータをグラフにする方法を解説…

＜セル１４＞

fare_nan["Fare"].hist()

実行結果

10ドルよりも低いところに集まっているのが分かります。

ここをもう少し細かく見てみましょう。

＜セル１５＞

fare_nan["Fare"].hist(range=(0, 15))

実行結果

やはり８ドルのところに集中していることが分かります。

確率論から言うと、８ドルにしてしまってもそうそうずれることはないように感じます。

しかし一方で同じ条件でデータを絞った中に50ドルを超える料金を支払っている人も含まれています。

そう言う意味ではまだまだ納得できていません。

なかなか考えも煮詰まってきたので、今回はここまでとして、次回さらに他に何かできないか考えてみましょう。

あわせて読みたい

【Kaggle】タイタニック号乗客の生存予測（Fareの欠損値を修正　その２）［Python］ Kaggle 前回は機械学習・データサイエンスのプラットフォーム「Kaggle（カグル）」の「タイタニック号乗客の生存予測」のデータセットのFareの欠損値を修正するための情…

ということで今回はこんな感じで。

よかったらシェアしてね！

URLをコピーしました！

【Kaggle】タイタニック号乗客の生存予測（Fareの欠損値を修正　その１）［Python］

Kaggle

データを修正するための情報収集

コメント

コメントするコメントをキャンセル

【Kaggle】タイタニック号乗客の生存予測（Fareの欠損値を修正 その１）［Python］

Kaggle

データを修正するための情報収集

コメント

コメントする コメントをキャンセル

【Kaggle】タイタニック号乗客の生存予測（Fareの欠損値を修正　その１）［Python］

コメントするコメントをキャンセル