【Pandas】欠損値nanをもつデータの取り扱い（.isnull()、.fillna()）［Python］

2020年11月2日2024年9月14日

URLをコピーしました！

データ解析支援ライブラリPandas

前回は欠損値nanをもつダミーデータを作成するため、ダミーデータ作成プログラムをアップデートしました。

それぞれのセルの値が欠損値nanか確認：.isnull()

まずはそれぞれのセルに入っている値が欠損値nanか確認するコマンドを見てみましょう。

そのコマンドは「.isnull()」です。

「null」というのは「何もないことを示す値」で、「nan」と同じような意味を示しています。

「nan」を使うんだから「.isnan()」だと思ってしまいがちですが、「.isnull()」なので注意してください。

ということで試してみましょう。

import pandas as pd

df = pd.read_csv("python-pandas-14_data1.txt", index_col = 0)

df.isnull()

実行結果

「True」になっているところが「nan」で、「False」となっているところが数値が入っているセルになります。

ちなみに間違えそうな「.isnan()」だとそんなコマンドないというエラーが表示されます。

import pandas as pd

df = pd.read_csv("python-pandas-14_data1.txt", index_col = 0)

df.isnan()

実行結果

---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
<ipython-input-7-893404702a14> in <module>
      3 df = pd.read_csv("python-pandas-14_data1.txt", index_col = 0)
      4 
----> 5 df.isnan()

/opt/anaconda3/lib/python3.7/site-packages/pandas/core/generic.py in __getattr__(self, name)
   5177             if self._info_axis._can_hold_identifiers_and_holds_name(name):
   5178                 return self[name]
-> 5179             return object.__getattribute__(self, name)
   5180 
   5181     def __setattr__(self, name, value):

AttributeError: 'DataFrame' object has no attribute 'isnan'

各行、各列のnanの数をカウント：.isnull().sum()

次に各行、各列のnanの数をカウントできるようにしてみましょう。

その場合は一つのコマンドだけではできず、「.isnull()」でnanかどうかを判定し、「.sum()」で「True」となったセル数をカウントします。

また行と列を指定するには「.sum()」のオプションとして、「axis=0」、「axis=1」を追加します。

欠損値nanを特定の値で置き換え：.fillna()

欠損値が欠損値のままではデータ解析に支障が出る場合があります。

その場合は欠損値を理論的に妥当な値に置き換え、解析を行います。

nanを他の値に置き換える際に用いるコマンドが「.fillna()」です。

全てのnanを1000に置き換えてみましょう。

import pandas as pd

df = pd.read_csv("python-pandas-14_data1.txt", index_col = 0)

df = df.fillna(1000)

df

実行結果

「df = df.fillna(1000)」としているのは、一度データフレームdfをnanを1000に置き換えたデータフレームで上書きするためです。

もちろん特定の列や行のnanだけ置き換えることも可能です。

まずは「value_3」の列のnanを1000に置き換えてみましょう。

import pandas as pd

df = pd.read_csv("python-pandas-14_data1.txt", index_col = 0)

df["value_3"] = df["value_3"].fillna(1000)

df

実行結果

次に「data_7」の列のnanを1000に置き換えてみましょう。

import pandas as pd

df = pd.read_csv("python-pandas-14_data1.txt", index_col = 0)

df.loc["data_7"] = df.loc["data_7"].fillna(1000)

df

実行結果

今回はnanの処理の基本編ということでここまでにしておきましょう。

次回は今回解説したコマンドの応用的な使い方を解説していきたいと思います。

【Pandas】欠損値nanをもつデータの取り扱い（.isnull()、.fillna()）［Python］

データ解析支援ライブラリPandas

それぞれのセルの値が欠損値nanか確認：.isnull()

各行、各列のnanの数をカウント：.isnull().sum()

欠損値nanを特定の値で置き換え：.fillna()

コメント

コメントするコメントをキャンセル

【Pandas】欠損値nanをもつデータの取り扱い（.isnull()、.fillna()）［Python］

データ解析支援ライブラリPandas

それぞれのセルの値が欠損値nanか確認：.isnull()

各行、各列のnanの数をカウント：.isnull().sum()

欠損値nanを特定の値で置き換え：.fillna()

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル