【Python基礎】ファイルの書き込み方法の比較：全て書き込んでから閉じる or 1行書き込んだら閉じる

2022年10月11日2022年10月17日

URLをコピーしました！

ファイルの書き込みの比較

今回は何となく思ったことを試していくコーナーとして、ファイルの書き込みの際、いつファイルを閉じたらいいかを検証していきます。

どういうことかと言うと、例えばこんな感じのデータ。

1行ずつ数値データが書き込まれています。

このファイルを生成する際、ファイルをどのように開き、そして閉じたら処理が短くて済むかということを検証したいと思ったわけです。

プログラムで書いてみるとまずはこれのように「ファイルを開いて、データを全て書き込んでから閉じる」タイプ。

with open(filepath, 'w') as f_out:
    for _ in range(cycles):
        f_out.write(f'{random.random()}\n')

もしくはこんな感じで、「開いて1行書いて閉じるを繰り返す」タイプ。

for _ in range(cycles):
    with open(filepath, 'a') as f_out:
        f_out.write(f'{random.random()}\n')

まず間違いなく「ファイルを開いて、データを全て書き込んでから閉じる」タイプの方が処理時間は速いことでしょう。

でもまず間違いなく「ファイルを開いて、データを全て書き込んでから閉じる」タイプは途中で処理が中断されると、そこまでの処理は保存されず、破棄されてしまうのではないでしょうか？

その場合、「開いて1行書いて閉じるを繰り返す」タイプでは毎行保存をしているようなものなので、処理の中断に強いのではないでしょうか？

そこらへんの疑問が浮かんできたので、とりあえず試してみることにしました。

検討用のプログラム全体

まずは検討のプログラム全体をお見せします。

import random
import os
import psutil
import datetime

cycles = 1000000

default_dirpath = os.getcwd()

time_start = datetime.datetime.now()
time_start_str = time_start.strftime('%Y%m%d%H%M%S')
os.mkdir(time_start_str)
output_dirpath = os.path.join(default_dirpath, time_start_str)

memorylog_filename = 'memory.log'
memorylog_filepath = os.path.join(output_dirpath, memorylog_filename)

test_filename = 'test.txt'
text_filepath = os.path.join(output_dirpath, test_filename)

mem = psutil.virtual_memory()
used_start = mem.used

def filewrite1(text_filepath, memory_filepath, time_start):
    with open(text_filepath, 'w') as f_out:
        for _ in range(cycles):
            f_out.write(f'{random.random()}\n')
            memorySave(memorylog_filepath, time_start)
            
def filewrite2(text_filepath, memory_filepath, time_start):
    for _ in range(cycles):
        with open(text_filepath, 'a') as f_out:
            f_out.write(f'{random.random()}\n')
            memorySave(memorylog_filepath, time_start)

def memorySave(memorylog_filepath, time_start):
    time_now = datetime.datetime.now()
    timedelta = time_now - time_start
    mem_now = psutil.virtual_memory()
    used_now = mem_now.used
    used_delta = used_now - used_start
    with open(memorylog_filepath, 'a') as mem_out:
        mem_out.write(f'{timedelta},{used_delta}\n')
            
if __name__ == '__main__':
    filewrite1(text_filepath, memorylog_filepath, time_start)
#     filewrite2(text_filepath, memorylog_filepath, time_start)

上の方から順に解説していきましょう。

ライブラリの読み込み＆設定部分

まずはライブラリの読み込みと設定の部分です。

import random
import os
import psutil
import datetime

cycles = 1000000

default_dirpath = os.getcwd()

time_start = datetime.datetime.now()
time_start_str = time_start.strftime('%Y%m%d%H%M%S')
os.mkdir(time_start_str)
output_dirpath = os.path.join(default_dirpath, time_start_str)

memorylog_filename = 'memory.log'
memorylog_filepath = os.path.join(output_dirpath, memorylog_filename)

test_filename = 'test.txt'
text_filepath = os.path.join(output_dirpath, test_filename)

mem = psutil.virtual_memory()
used_start = mem.used

今回使用しているライブラリは「os」、「random」、「psutil」、「datetime」の4つです。

psutilはメモリやCPUの使用量を取得するライブラリで、こちらで解説していますので、よかったらどうぞ。

ファイル書き込用関数

次はファイル書き込みの部分です。

def filewrite1(text_filepath, memory_filepath, time_start):
    with open(text_filepath, 'w') as f_out:
        for _ in range(cycles):
            f_out.write(f'{random.random()}\n')
            memorySave(memorylog_filepath, time_start)
            
def filewrite2(text_filepath, memory_filepath, time_start):
    for _ in range(cycles):
        with open(text_filepath, 'a') as f_out:
            f_out.write(f'{random.random()}\n')
            memorySave(memorylog_filepath, time_start)

アップデートの際のミスを減らすために、一つのファイルで関数を適宜選択し、処理を変える方法を取りました。

filewrite1関数が「ファイルを開いて、データを全て書き込んでから閉じる」タイプ。

filewrite2関数が「開いて1行書いて閉じるを繰り返す」タイプ。

ファイルの書き込みに関しては先ほども解説しているので、ここでは割愛します。

ちなみに書き込むデータはrandomライブラリを使って、「random.random()」でランダムな小数を生み出し、ファイルに書き込んでいます。

filewrite1関数、filewrite2関数それぞれの最後にあるmemorySave関数は次で解説します。

memorySave関数

filewrite1関数でもfilewrite2関数でも1行処理したら、その時点でのメモリ使用量を取得し、ファイルに書き込むようにしました。

def memorySave(memorylog_filepath, time_start):
    time_now = datetime.datetime.now()
    timedelta = time_now - time_start
    mem_now = psutil.virtual_memory()
    used_now = mem_now.used
    used_delta = used_now - used_start
    with open(memorylog_filepath, 'a') as mem_out:
        mem_out.write(f'{timedelta},{used_delta}\n')

datetime関数で日時を取得したのち、プログラム開始時に取得した日時と引き算をすることで、経過時間を取得しています。

    time_now = datetime.datetime.now()
    timedelta = time_now - time_start

メモリ使用量も同様に処理毎にメモリ使用量を取得し、プログラム開始時に取得したメモリ使用量と引き算をすることでプログラム開始時からのメモリ使用量の増減を取得しています。

    mem_now = psutil.virtual_memory()
    used_now = mem_now.used
    used_delta = used_now - used_start

そして最後にメモリ使用量を記録するためのファイル「memory.log」に出力しています。

if name == ‘main’部分

最後に実行部分である「if __name__ == ‘__main__’」部分です。

if __name__ == '__main__':
    filewrite1(text_filepath, memorylog_filepath, time_start)
#     filewrite2(text_filepath, memorylog_filepath, time_start)

ここではfilewrite1関数とfilewrite2関数のどちらかを呼び出す（使わない方をコメントアウトする）だけです。

グラフ作成用プログラム

次は取得したメモリ使用量のデータをグラフ化するプログラムです。

import os
import matplotlib.pyplot as plt
import pandas as pd

default_dirpath = os.getcwd()
memorylog_filename = 'memory.log'
memorylog_filepath = os.path.join(default_dirpath, memorylog_filename)

def main():
    df = pd.read_csv(memorylog_filepath, names=['Time', 'Memory'])
    
    total_seconds_list = []
    for time in df['Time']:
        hour = int(time.split(':')[0])
        minute = int(time.split(':')[1])
        second = float(time.split(':')[2])
        
        total_seconds = 60*60*hour + 60*minute + second
        
        total_seconds_list.append(total_seconds)
        
    fig = plt.figure()
    
    plt.plot(total_seconds_list, df['Memory'])
    
    plt.xlabel('Seconds')
    plt.ylabel('Memory Used')
    
    plt.savefig('memory.png')
    
if __name__ == '__main__':
    main()

こちらも順に解説していきましょう。

ライブラリの読み込み＆設定部分

import os
import matplotlib.pyplot as plt
import pandas as pd

default_dirpath = os.getcwd()
memorylog_filename = 'memory.log'
memorylog_filepath = os.path.join(default_dirpath, memorylog_filename)

こちらで使用しているライブラリは「os」、「matplotlib」、「pandas」の３つです。

またメモリ使用量を保存しているファイル「memory.log」のファイルパスの設定をしています。

ちなみにこのグラフ化プログラムは、先ほどの処理用プログラムで作成された日時のフォルダの中で使用するのを想定しています。

Main関数部分

def main():
    df = pd.read_csv(memorylog_filepath, names=['Time', 'Memory'])
    
    total_seconds_list = []
    for time in df['Time']:
        hour = int(time.split(':')[0])
        minute = int(time.split(':')[1])
        second = float(time.split(':')[2])
        
        total_seconds = 60*60*hour + 60*minute + second
        
        total_seconds_list.append(total_seconds)
        
    fig = plt.figure()
    
    plt.plot(total_seconds_list, df['Memory'])
    
    plt.xlabel('Seconds')
    plt.ylabel('Memory Used')
    
    plt.savefig('memory.png')
    

if __name__ == '__main__':
    main()

memory.logをCSVファイルとしてPandasを使って読み込みます（df = pd.read_csv(memorylog_filepath, names=[‘Time’, ‘Memory’])）。

その際、先ほどの処理用プログラムでは列名であるヘッダー行がなかったので、ここで追加しています（names=[‘Time’, ‘Memory’]）。

そして残念ながら時間に関してはPandasでは文字列として認識されているので、時、分、秒と分割した後、秒数に計算し直して、リストに格納しています。

total_seconds_list = []
    for time in df['Time']:
        hour = int(time.split(':')[0])
        minute = int(time.split(':')[1])
        second = float(time.split(':')[2])
        
        total_seconds = 60*60*hour + 60*minute + second
        
        total_seconds_list.append(total_seconds)

ちなみに「pd.to_datetime(時間の列, format=’日時のフォーマット’)」で、その列を日時に一括変換できるようなのですが、どうしてもフォーマットに合わない行があり、今回は断念しました。

後は変換した処理時間をX軸のデータに、メモリ使用量をY軸のデータにしてMatplotlibでグラフ化しています。

    fig = plt.figure()
    
    plt.plot(total_seconds_list, df['Memory'])
    
    plt.xlabel('Seconds')
    plt.ylabel('Memory Used')
    
    plt.savefig('memory.png')