Python：ログファイルを処理する200GB

-4

私はログファイルを持っています。サイズは200Gbです。これを実行する方法を見つけようとしますが、わかりません。私はこのファイルを分割することは役に立たないと思いますが、おそらくそれを行う方法があります。おそらくMapreduceまたはHadoopとすることができますか？私はこのアプリでは動作しませんが、誰かがこのタスクを持っていて、その解決策を助けることができます。チャンクで読みラムに収まらないファイルについては、Python：ログファイルを処理する200GB

出典

2016-10-05 Petr Petrov

どのログファイル形式？私たちに詳細とあなたが今までしようとしたものを与えてください。 – SerialDev

@SerialDevそれは4列： 'ID url used_at active_seconds'とそれの重量は200GBです。私はファイルを開くことができませんし、Pythonコンソールにロードすることができません –

ファイルで何をしますか？なぜそれを行ごとに読むことができないのですか？ – Matthias

：

chunksize = 10 ** 6 
for chunk in pd.read_csv(filename, chunksize=chunksize): 
    process(chunk)

SQLクエリからのもう一つの例：

df_list = [] 
for chunk in pd.read_sql_query(sql , conn, chunksize=10): 
    df_list.append(chunk) 
frames=pd.concat(df_list, ignore_index=True)

出典

2016-10-05 09:20:10 SerialDev

Python：ログファイルを処理する200GB

答えて

関連する問題