【Pandas】欠損値nanを平均値や中央値で置き換え［Python］

2020年11月8日2024年9月14日

URLをコピーしました！

データ解析支援ライブラリPandas

前回はデータ解析支援ライブラリPandasで欠損値nanの個数を数え、％表示する関数を作成しました。

あわせて読みたい

【Pandas】欠損値nanの個数と％を表示［Python］データ解析支援ライブラリPandas 前回はデータ解析支援ライブラリPandasで欠損値nanを判定し、カウント、特定の値に置き換える方法を解説しました。今回はデータ解析を…

今回は欠損値nanを平均値や中央値で置き換える方法を解説していきます。

今回もまずは準備から。

データは前回と同じnanを含んだデータを用います。

python-pandas-14_data1 ダウンロード

あわせて読みたい

【Python】ダミーデータ生成プログラム：nanをランダムにもつダミーデータ nanとは？今回は前に作成したダミーデータのファイルを生成するプログラムをアップデートしていきます。アップデートする方向としては「nan」という値をランダムに入…

データの読み込みはこんな感じ。

import pandas as pd

df = pd.read_csv("python-pandas-14_data1.txt", index_col = 0)

df

実行結果

それでは進めていきましょう。

欠損値nanを平均値や中央値で置き換える方法

まずは欠損値nanを置き換える方法を復習しましょう。

欠損値nanを置き換えるには、「.fillna(置き換える値)」でした。

「value_1」のnanを500に置き換えてみましょう。

import pandas as pd

df = pd.read_csv("python-pandas-14_data1.txt", index_col = 0)

df["value_1"] = df["value_1"].fillna(500)

df

実行結果

では次に500ではなく、「value_1」の列にある他の値の平均値で置き換えてみましょう。

平均値を計算する場合は、「データフレーム名.mean()」でした。

今回は「value_1」の平均値だけなので、df[“value_1”].mean()となります。

import pandas as pd

df = pd.read_csv("python-pandas-14_data1.txt", index_col = 0)

df["value_1"] = df["value_1"].fillna(df["value_1"].mean())

df

実行結果

小数点以下６桁まで表示されてしまっていますが、確かにvalue_1の列のnanを平均値で置き換えることができました。

また中央値の場合は「データフレーム名.median()」でした。

ということで中央値の場合はこうなります。

import pandas as pd

df = pd.read_csv("python-pandas-14_data1.txt", index_col = 0)

df["value_1"] = df["value_1"].fillna(df["value_1"].median())

df

実行結果

今度はnanが中央値である「27」に置き換えられました。

各列をその列の平均値、中央値で置き換える方法

では今度は1列だけではなく、全列をそれぞれの列の平均値、中央値で置き換えてみましょう。

この場合、悩むのは「df[“value_1”] = df[“value_1”].fillna(df[“value_1”].mean())」の部分。

ここを列名を一つずつ取りつつ、「”value_1″」の代わりに代入していくことになります。

その際に必要なのは列の名前を取得する方法。

列名を取得する方法は下の記事で解説していますが、「データフレーム名.columns」です。

あわせて読みたい

【Pandas】行名、列名の取得と行数、列数、全要素数の取得［Python］データ解析支援ライブラリPandas 前回はデータ解析支援ライブラリPandasで行も列も指定してデータを取得する方法を解説しました。しかし行や列を指定してデータを取得…

これをfor文を使い、一つずつ先ほどの「”value_1″」の代わりに代入していきます。

ということでこんな感じ。

import pandas as pd

df = pd.read_csv("python-pandas-14_data1.txt", index_col = 0)

for column_name in df.columns:
    df[column_name] = df[column_name].fillna(df[column_name].mean())

df

実行結果

各列のnanを各列の平均値で置き換えることができました。

もちろん中央値でも可能です。

import pandas as pd

df = pd.read_csv("python-pandas-14_data1.txt", index_col = 0)

for column_name in df.columns:
    df[column_name] = df[column_name].fillna(df[column_name].median())

df

実行結果