【Python】ワードクラウド：形態素解析ライブラリjanomeとワードクラウド作成ライブラリWordCloud

2021年9月20日2022年12月9日

URLをコピーしました！

ワードクラウド

今回はワードクラウドなるものを試してみようと思います。

ワードクラウドとは、文章の中の単語の頻出割合でその単語の文字の大きさや色を変え、画像に配置し、文章をイメージとして捉えられるようにしたものです。

例えば、こちらの記事の最初のパラグラフをワードクラウドにしてみました。

あわせて読みたい

非公開: 【3Dプリンタ】Cura：ダウンロード、インストール、初期設定スライサーソフトとは？ 3Dプリンタで出力する時、絶対に必要になるのが、スライサーソフト。ではスライサーソフトとは一体何なのか？ 3Dプリンタを使ったことがある人…

するとこんな感じです。

なかなか面白いと思いませんか？

ということで試していきましょう。

ライブラリのインストール

まずは今回使用するライブラリのインストールを行います。

今回使用するのは、「janome」、「WordCloud」、そして「matplotlib」です。

matplotlibに関しては前にも使用していますので、インストールされていることと思います。

ですので「janome」と「WordCloud」をインストールしていきます。

ライブラリのインストール方法はこちらの記事で解説しています。

あわせて読みたい

非公開: 【Python基礎】Anaconda〜インストールと使い方・パッケージのインストール方法〜 AnacondaについてとりあえずAnacondaのウェブサイトを紹介しましょう。トップページにはでかでかと The Enterprise Data Science Platform for Data Scientists, IT P…

といいつつも最近はJupyter Notebook上で「pip」コマンドを使うことをよくやります。

pip install janome

pip install wordcloud

インストールができたらプログラムを組んでいきましょう。

janomeを使った形態素解析

まずはjanomeを使って、文章を名詞や動詞、助詞などに分解、そして分類していきます。

細かいことはまた次回解説することにして、今回は流れを解説することにします。

その部分のプログラムはこんな感じです。

from janome.tokenizer import Tokenizer

data = "明日天気になぁれ"

tk = Tokenizer()
tokens = tk.tokenize(data)

words = []

for token in tokens:
    token_list = token.part_of_speech.split(",")
    if token_list[0] == "名詞" and token_list[1] != "非自立":
        words.append(token.surface)
    
words = " ".join(words)

まずjanomeの「Tokenizer」というライブラリをインポートします。

from janome.tokenizer import Tokenizer

そして「data = “明日天気になぁれ”」の部分はワードクラウドにする文章です。

ということで好きなように変更してもらって大丈夫です。

次にTockenizerのクラスを読み込み、さらに先ほどの文章を読み込み解析します。

tk = Tokenizer()
tokens = tk.tokenize(data)

次に解析した結果のリスト「token」を一つずつ読み込み、名詞に当たるものだけリストwordsに格納します。

words = []

for token in tokens:
    token_list = token.part_of_speech.split(",")
    if token_list[0] == "名詞" and token_list[1] != "非自立":
        words.append(token.surface)

最後にWordCloudに渡すため、リスト形式ではなく、スペースで区切った文字列形式に変更します。

words = " ".join(words)

WordCloudによる画像化

次にWordCloudを使って画像化していきます。

そのプログラムがこちら。

from wordcloud import WordCloud
 
wordcloud = WordCloud(background_color="white",font_path=r"/System/Library/Fonts/Hiragino Sans GB.ttc", width=800,height=600).generate(words)

wordcloud.to_file("./sample.png")

1行目がWordCloudのインポート。

2行目が画像データへ変換。

3行目が画像ファイルの書き出しです。

こんな感じでたった3行でワードクラウドの画像が出来上がるのはすごいですよね。

ただ一つ重要なのがフォントの読み込みです。

今回のように日本語の文章の時、デフォルトのフォントでは日本語が含まれていないため表示することができず、こんな感じになってしまいます。

そこで「font_path=r”/System/Library/Fonts/Hiragino Sans GB.ttc”」のように日本語を含んだフォントを指定することが必要です。

Macのフォントの保存場所はこちらの記事で解説されています。

あわせて読みたい

SupportFAQ

Windowsのフォントの保存場所はこちらの記事で解説されています。

G-NOTE

【Windows 11】フォントフォルダの場所はどこ？保存場所を開く方法 Windows 10・Windows 11に元から入っているフォントや自分で追加したフォントの保存場所を開く方法です。 3パターンの開き方をご紹介します。エクスプローラーにパスを貼…

フォントを指定した場合はこんな感じになります。

Jupyter Notebook上での表示

ここまでで画像ファイルとして保存することができましたが、せっかくなのでJupyter Notebook上での表示の仕方も解説しておきます。

Jupyter Notebook上で表示するには、「matplotlib」を用います。

import matplotlib.pyplot as plt

plt.imshow(wordcloud)
plt.axis("off")
plt.show()

「imshow」を使って画像を読み込み、「plt.show()」で表示するというだけです。

あわせて読みたい

【matplotlib】imshowで二次元リストを画像表示：入力データ形式とカラーマップ（cmap）、透明化（alpha… Matplotlibで二次元リストを画像表示前回、Matplotlibライブラリのmatshowの解説をしました。今回はその元となった関数「imshow」の解説を行っていきたいと思います。…

表示された画像はこんな感じです。

ただしその際に軸の表示が邪魔になるので、「plt.axis(“off”)」で軸を削除しています。

ちなみに軸を削除しないこちらのプログラムだとこんな感じで表示されます。

import matplotlib.pyplot as plt

plt.imshow(wordcloud)
plt.show()

これでワードクラウドを作成することができました。

次回はせっかくなので形態素解析ライブラリ「janome」に関して少し解説してみようと思います。

あわせて読みたい

【Python】形態素解析ライブラリjanomeの使い方 janome 前回、形態素解析ライブラリjanomeとワードクラウド作成ライブラリWordCloudを使って、ワードクラウドを作成してみました。ただ前回はワードクラウドを表示する…

ではでは今回はこんな感じで。

よかったらシェアしてね！

URLをコピーしました！

【Python】ワードクラウド：形態素解析ライブラリjanomeとワードクラウド作成ライブラリWordCloud

ワードクラウド

ライブラリのインストール

janomeを使った形態素解析

WordCloudによる画像化

Jupyter Notebook上での表示

コメント

コメントするコメントをキャンセル

【Python】ワードクラウド：形態素解析ライブラリjanomeとワードクラウド作成ライブラリWordCloud

ワードクラウド

ライブラリのインストール

janomeを使った形態素解析

WordCloudによる画像化

Jupyter Notebook上での表示

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル