【Kaggle】タイタニック号乗客の生存予測（Ageの欠損値を修正　Name注目編１）［Python］

2021年6月21日2022年12月9日

URLをコピーしました！

Kaggle

前回は機械学習・データサイエンスのプラットフォーム「Kaggle（カグル）」の「タイタニック号乗客の生存予測」のデータセットのAgeの欠損値をPclassに注目して分析してみました。

あわせて読みたい

【Kaggle】タイタニック号乗客の生存予測（Ageの欠損値を修正　仮説からPclass注目編）［Python］ Kaggle 前回は機械学習・データサイエンスのプラットフォーム「Kaggle（カグル）」の「タイタニック号乗客の生存予測」のデータセットのAgeの欠損値を機械学習でなんと…

その結果、Pclassが「１」、「２」のものに関しては年齢分布をAgeの欠損値に当て嵌めても良さそうでしたが、「３」のものに関しては全体の年齢分布と変わらないため、もう少し分析が必要そうでした。

ということで今回は名前（Name）と年齢の関係性を読み解いていきたいと思います。

前回と同じく、まずはデータの読み込みとこれまでの修正を行っていきます。

＜セル１＞

import pandas as pd

train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")

train.loc[train["Sex"] == "male", "Sex"] = 0
train.loc[train["Sex"] == "female", "Sex"] = 1
test.loc[test["Sex"] == "male", "Sex"] = 0
test.loc[test["Sex"] == "female", "Sex"] = 1

test.loc[test["Fare"].isnull() == True, "Fare"] = 7.8875

train.loc[train["Embarked"].isnull() == True, "Embarked"] = "S"

train.loc[train["Embarked"] == "S", "Embarked"] = 0
train.loc[train["Embarked"] == "C", "Embarked"] = 1
train.loc[train["Embarked"] == "Q", "Embarked"] = 2
test.loc[test["Embarked"] == "S", "Embarked"] = 0
test.loc[test["Embarked"] == "C", "Embarked"] = 1
test.loc[test["Embarked"] == "Q", "Embarked"] = 2

all_data = pd.concat([train.drop(columns = "Survived"), test])

all_data

実行結果

それではNameに注目して解析していきましょう。

Nameの敬称に注目してみる

Nameに注目すると言っても、名前そのものからは年齢を推測するのは難しいです。

もちろん名前の流行り廃りがあるので極論を言えばできなくはないでしょうが、少なくとも私には英語名の、しかもタイタニック号が沈没した1912年頃の名前から年齢を推測することは困難です。

しかし敬称（Mr.とかMrs、Miss）からは何らかの年齢の情報が得られるかもしれません。

ということでまずは名前から敬称を抜き出し、年齢分布を見ていくことにします。

流れとしては、

名前の列のデータを一つずつ読み込む
split関数で姓、名、敬称を分割する
敬称にはピリオドが付くので、分割したデータの中でendwith関数で最後にピリオドが付くものを選択する
敬称をリストに格納する

という感じで行っていきます。

最初に敬称をリストに格納して、どんな敬称があるのかset関数で重複を省いて表示させてみます。

＜セル２＞

title_list = []

for name in all_data["Name"]:
    for name_split in name.split():
        if name_split.endswith(".") == True:
            title_list.append(name_split)

title_unique = set(title_list)      

print(title_unique)

実行結果
{'Dona.', 'Mme.', 'Countess.', 'Rev.', 'L.', 'Mrs.', 'Sir.', 'Ms.', 'Major.', 'Col.', 'Mlle.', 'Don.', 'Jonkheer.', 'Capt.', 'Mr.', 'Master.', 'Dr.', 'Lady.', 'Miss.'}

思ったよりも色々な敬称があるようです。

といっても本当にこれらが敬称なのか確認する必要があります。

これは一つずつ調べていくのが良いでしょう。

Dona. : スペインの貴婦人に対する敬称

あわせて読みたい

英語「Dona」の意味・使い方・読み方 | Weblio英和辞書「Dona」の意味・翻訳・日本語 – …夫人、スペインの貴婦人｜Weblio英和・和英辞書

Mme. : フランス語の既婚女性に対する敬称

あわせて読みたい

マダム – Wikipedia

Countess. : イギリス語の伯爵夫人に対する敬称

note（ノート）

【一生役に立たない知識】貴族の爵位とその呼称｜gogononogpon 爵位（しゃくい、英語: Royal and noble ranks、Title）とは主に古代から中世にかけての国家や現代における君主制に基づく国家において、貴族の血統による世襲または国家功…

Rev. : 聖職者に対する敬称

あわせて読みたい

英語「reverend」の意味・読み方・表現 | Weblio英和辞書「reverend」の意味・翻訳・日本語 – …師、…尊師、聖職者の、牧師の、あがめるべき、尊い｜Weblio英和・和英辞書

Mrs. : 既婚女性に対する敬称

あわせて読みたい

英語「Mrs.」の意味・使い方・読み方 | Weblio英和辞書「Mrs.」の意味・翻訳・日本語 – …夫人、…さん、ミセス…、(自分の)妻、(相手の)奥さん｜Weblio英和・和英辞書

Sir. : 騎士に与えられる称号、もしくは男性に対する敬称

あわせて読みたい

サー – Wikipedia

Ms. : 配偶者の有無に関わらず使われる女性に対する敬称

あわせて読みたい

ミズ (敬称) – Wikipedia

Major. : 軍の少佐に対する敬称

Wiktionary

major – ウィクショナリー日本語版

Col. : 軍の大佐に対する敬称

goo辞書

colonelの意味 – goo辞書英和和英 colonelとは。意味や和訳。（◆発音注意）名C1 ((米))（陸軍・空軍・海兵隊の）大佐；((英))（陸軍の）大佐2 ((略式))（敬称としての陸軍の）中佐（lieutenant colonel）3 …

Mlle.: フランス語の未婚女性に対する敬称

あわせて読みたい

マドモアゼル – Wikipedia

Don. : スペイン語の男性に対する敬称

語源由来辞典

ドン／首領／Don – 語源由来辞典ドンの意味、語源、由来を解説。首領や親分を指す。スペインやイタリアの「Don」からで、元々は貴族の名前の前につける敬称。

Jonkheer. : オランダとベルギーの貴族に対する敬称

あわせて読みたい

Jonkheerの意味・使い方・読み方 | Weblio英和辞書 Jonkheerの意味や使い方ヨンクヘールヨンクヘール（オランダ語: jonkheer、略記：jhr.）、ないし、その女性形のヨンクフラウ（jonkvrouw、略記：jkvr.）は、オランダとベ…

Capt. : 船長に対する敬称（略称？）

あわせて読みたい

英語「Capt.」の意味・使い方・読み方 | Weblio英和辞書「Capt.」の意味・翻訳・日本語 – 《略語》Captain（船長）、《略語》 captain（キャプテン）｜Weblio英和・和英辞書

Mr. : 男性に対する敬称

あわせて読みたい

ミスター – Wikipedia

Master. : 少年や青年男性に対する敬称

あわせて読みたい

マスター (敬称) – Wikipedia

Dr. : 博士に対する敬称

あわせて読みたい

博士 – Wikipedia

Lady. : 貴婦人、女侯爵、伯爵夫人などに対する敬称

あわせて読みたい

英語「lady」の意味・使い方・読み方 | Weblio英和辞書「lady」の意味・翻訳・日本語 – 貴婦人、淑女、レディー、女候爵または候爵夫人の略式の敬称、公爵令嬢への敬称、Lord という優遇爵位をもつ夫の夫人への敬称、准男爵夫…

Miss. : 未婚女性に対する敬称

あわせて読みたい

ミス (敬称) – Wikipedia

この時代の敬称はなかなかたくさんあって大変です。

ここまではネットで調べれば情報が得られたのですが、一つだけ「L.」に関しては敬称なのか何なのか調べた限りでは分かりませんでした。

ということで「L.」を持つ人のデータを見てみましょう。

＜セル３＞

all_data[all_data["Name"].str.contains("L\\.") == True]

実行結果

「Rothschild, Mrs. Martin (Elizabeth L. Barrett)」というのを見ると旧姓なのか別名なのか、どちらにせよこの人は「Mrs.」という敬称をもっているため、「L.」は敬称でないように見えます。

また敬称だったとしても、一人の人が２つの敬称をもっているとその人が２回カウントされることになり、データ数にずれが出てきてしまいます。

ということで「L.」は除外してデータを解析していきましょう。

すると先ほど敬称を分類したときのプログラムがこう変わります。

＜セル４＞

title_list = []

for name in all_data["Name"]:
    for name_split in name.split():
        if name_split.endswith(".") == True:
            if name_split != "L.":
                title_list.append(name_split)

title_unique = set(title_list)      

print(title_unique)

実行結果
{'Dona.', 'Col.', 'Mme.', 'Master.', 'Don.', 'Ms.', 'Mlle.', 'Dr.', 'Rev.', 'Capt.', 'Countess.', 'Lady.', 'Jonkheer.', 'Major.', 'Mrs.', 'Sir.', 'Mr.', 'Miss.'}

「if name_split != “L.”:」で”L.”以外のものを取得して、リストへ追加しています。

ついでに各敬称の数を数えておきましょう。

＜セル５＞

for title in title_unique:
    title_count = title_list.count(title)
    print(str(title) + ":" + str(title_count))

実行結果
Dona.:1
Col.:4
Mme.:1
Master.:61
Don.:1
Ms.:2
Mlle.:2
Dr.:8
Rev.:8
Capt.:1
Countess.:1
Lady.:1
Jonkheer.:1
Major.:2
Mrs.:197
Sir.:1
Mr.:757
Miss.:260

多いものもあれば少ないものもありますね。

今回は敬称を一つ一つ調べてきたため、長くなってきましたのでここまで。

次回は敬称に対する年齢分布を見ていきましょう。

あわせて読みたい