joblibを使用すると、Pythonはスクリプトの実行に伴ってRAMの使用量を増加させます。

ロードしたいファイルが多数あり、何らかの処理を行い、処理したデータを保存します。このために私は次のコードをしている：joblibを使用すると、Pythonはスクリプトの実行に伴ってRAMの使用量を増加させます。

from os import listdir 
from os.path import dirname, abspath, isfile, join 
import pandas as pd 
import sys 
import time 
# Multi-threading 
from joblib import Parallel, delayed 
import multiprocessing 

# Number of cores 
TOTAL_NUM_CORES = multiprocessing.cpu_count() 
# Path of this script's file 
FILES_PATH = dirname(abspath(__file__)) 

def read_and_convert(f,num_files): 
    # Read the file 
    dataframe = pd.read_csv(FILES_PATH + '\\Tick\\' + f, low_memory=False, header=None, names=['Symbol', 'Date_Time', 'Bid', 'Ask'], index_col=1, parse_dates=True) 
    # Resample the data to have minute-to-minute data, Open-High-Low-Close format. 
    data_bid = dataframe['Bid'].resample('60S').ohlc() 
    data_ask = dataframe['Ask'].resample('60S').ohlc() 
    # Concatenate the OLHC data 
    data_ask_bid = pd.concat([data_bid, data_ask], axis=1, keys=['Bid', 'Ask']) 
    # Keep only non-weekend data (from Monday 00:00 until Friday 22:00) 
    data_ask_bid = data_ask_bid[(((data_ask_bid.index.weekday >= 0) & (data_ask_bid.index.weekday <= 3)) | ((data_ask_bid.index.weekday == 4) & (data_ask_bid.index.hour < 22)))] 
    # Save the processed and concatenated data of each month in a different folder 
    data_ask_bid.to_csv(FILES_PATH + '\\OHLC\\' + f) 
    print(f) 

def main(): 
    start_time = time.time() 
    # Get the paths for all the tick data files 
    files_names = [f for f in listdir(FILES_PATH + '\\Tick\\') if isfile(join(FILES_PATH + '\\Tick\\', f))] 

    num_cores = int(TOTAL_NUM_CORES/2) 
    print('Converting Tick data to OHLC...') 
    print('Using ' + str(num_cores) + ' cores.') 
    # Open and convert files in parallel 
    Parallel(n_jobs=num_cores)(delayed(read_and_convert)(f,len(files_names)) for f in files_names) 
    # for f in files_names: read_and_convert(f,len(files_names)) # non-parallel 
    print("\nTook %s seconds." % (time.time() - start_time)) 

if __name__ == "__main__": 
    main()

ファイルの最初のカップルは本当に速いこのように処理されますが、速度は、スクリプトをさらに処理し、さらにファイルとしてずさんな取得を開始します。より多くのファイルが処理されるにつれ、RAMは次第にいっそういっそういっそういっそういっそういっそういっそういっそういっそういっそういっそういっそういっそういっそう多くのファイルが処理される。ジョブリーブは、ファイルを循環するので、未使用のデータをフラッシュしませんか？

出典

2017-02-21 Filipe Aleixo

あなたが並列で実行されている関数の最後の行にgc.collect()を追加する飽和取得からRAMを回避することができます。 gc.collect()はPythonのガベージコレクタです。

出典

2017-02-21 18:47:58

joblibを使用すると、Pythonはスクリプトの実行に伴ってRAMの使用量を増加させます。

答えて

関連する問題