2016-10-05 8 views
-4

私はログファイルを持っています。サイズは200Gbです。 これを実行する方法を見つけようとしますが、わかりません。 私はこのファイルを分割することは役に立たないと思いますが、おそらくそれを行う方法があります。 おそらくMapreduceまたはHadoopとすることができますか?私はこのアプリでは動作しませんが、誰かがこのタスクを持っていて、その解決策を助けることができます。チャンクで読みラムに収まらないファイルについては、Python:ログファイルを処理する200GB

+0

どのログファイル形式?私たちに詳細とあなたが今までしようとしたものを与えてください。 – SerialDev

+0

@SerialDevそれは4列: 'ID url used_at active_seconds'とそれの重量は200GBです。私はファイルを開くことができませんし、Pythonコンソールにロードすることができません –

+0

ファイルで何をしますか?なぜそれを行ごとに読むことができないのですか? – Matthias

答えて

1

chunksize = 10 ** 6 
for chunk in pd.read_csv(filename, chunksize=chunksize): 
    process(chunk) 

SQLクエリからのもう一つの例:

df_list = [] 
for chunk in pd.read_sql_query(sql , conn, chunksize=10): 
    df_list.append(chunk) 
frames=pd.concat(df_list, ignore_index=True)