【tweepy】フォロワー情報をまとめる（データ解析編）［Python］

2022年5月27日2022年12月9日

URLをコピーしました！

tweepy

前回、PythonのTwitter API制御ライブラリtweepyを使って、フォロワー情報をまとめたJSONファイルをCSVファイルに変換しました。

あわせて読みたい

【tweepy】フォロワー情報をまとめる（JSONファイルからCSVファイルへの変換）［Python］ tweepy PythonのTwitter API制御ライブラリtweepyを使って、フォロワー情報をまとめて、JSONに保存してみました。今回はJSONファイルにまとめたフォロワー情報を、CSV…

今回は出力したCSVファイルを使って、データの解析をしていきたいと思います。

それでは始めていきましょう。

CSVファイルの読み込みとpandasのデータフレームへの変換

まずはCSVファイルを読み込み、pandasのデータフレームに変換していきます。

このCSVファイルの読み込みとpandasのデータフレームへの変換はこちらの記事でも解説していますので、良かったらどうぞ。

あわせて読みたい

【Pandas】CSVデータの読み込み［Python］データ解析支援ライブラリPandas 前にデータ解析支援ライブラリPandasを使ってグラフ表示をする方法を解説しました。 Pandasはまだまだ色んな解析ができるライブラリな…

とは言っても難しいことはなく、「pd.read_csv(‘読み込むCSVファイル’)」でCSVファイルの読み込みとpandasのデータフレームへの変換を一度にやることができます。

ということでこんな感じです。

import os
import csv
import pandas as pd

csv_filename = 'followerlist.csv'

default_dirpath = os.getcwd()
csv_filepath = os.path.join(default_dirpath, csv_filename)

data = pd.read_csv(csv_filepath)
data = data.rename(columns={'Unnamed: 0':'id'})

data

まずデータ読み込みに関して、インポートするライブラリは「os」、「pandas」の二つ。

CSVファイルを使いますが、pandasの「pd.read_csv(‘CSVファイル’)」で一気にデータフレーム化しますので、csvライブラリのインポートはいらないようです。

「csv_filename」、「default_dirpath」、「csv_filepath」はそれぞれCSVファイルの名前、Pythonプログラムのパスの取得、CSVファイルのパスを定義しています。

そして「data = pd.read_csv(csv_filepath)」でCSVファイルを読み込み、pandasのデータフレームに変換しています。

ちょっと新しいところは次の行。

data = data.rename(columns={'Unnamed: 0':'id'})

もしこの行無しで「data」を表示するとこうなります。

CSVからpandasのデータフレームにした際にインデックス列が追加され、インデックス列として使用していたアカウントIDの列が「Unnamed: 0」になっています。

pandasの場合、数字のインデックスも結構使うので、残しておいた方が得策かなと考え、アカウントIDの列名を「rename」で変更したというわけです。

今回のように列名を変更する場合は、「データフレーム名.rename(columns={’旧カラム名’:’新カラム名’})」です。

ちなみに行名の場合は「データフレーム名.rename(index={’旧行名’:’新行名’})」となります。

ということで変更するとこんな感じの出力が得られます。

ペアプロットの表示

次にペアプロット（Pairplot）を表示させてみましょう。

ペアプロットに関してはこちらの記事で紹介しています。

あわせて読みたい

【seaborn】グラフ表示［Python］グラフ表示ライブラリseaborn 前回、ダミーデータ作成プログラムをアップデートして、機械学習のデータっぽいデータを出力できるようにしました。ということで今、3PyS…

数字のデータだけが含まれたデータフレームを入力すると、すべての組み合わせに関して、散布図とヒストグラムを表示してくれる機能です。

こちらのグラフに関してはseabornというライブラリを使用するのと、数字のデータだけのデータフレームにする必要があります。

import seaborn as sns

plots = pd.DataFrame()

plots['follows'] = data['follows']
plots['followers'] = data['followers']
plots['no_tweets'] = data['no_tweets']
plots['no_favourites'] = data['no_favourites']

sns.pairplot(plots)

実行結果

まず「seaborn」ライブラリを「sns」としてインポート。

その後、空のデータフレームを作って、そこに必要なデータを格納します。

plots = pd.DataFrame()

plots['follows'] = data['follows']
plots['followers'] = data['followers']
plots['no_tweets'] = data['no_tweets']
plots['no_favourites'] = data['no_favourites']

そして「sns.pairplot(plots)」でペアプロットの表示です。

これでフォロワーの大体の傾向が掴めるので、解析していきましょう。