2017-06-16 12 views
1

こんにちは私は大きなデータを扱い、Pythonで快適に使えるように新しくなっています 私は150のcsvをそれぞれ70MBのサイズで1つのソースに統合して、ユニークなカウント、すべて。150 csvを1つのデータソースに埋め込む

どのようにすればいいですか? 私はpythonのpyelastic searchパッケージを見つけました。私が偶然の天蓋で使用するのがどれほど可能ですか?

提案が必要です!

答えて

0

pandasパッケージを使用してください。単一のCSVを読み込む

次のようになります。

import pandas as pd 
df = pd.read_csv('filelocation.csv') 
複数のファイルの場合は

、ちょうどconcatそれらを。

df = pd.concat([pd.read_csv(f) for f in ls]) 

、その後、単一のファイルとしてそれらを書くために、実行します:さんはlsは、その後、ファイルの場所のリストであるとしましょうもちろんの

df.to_csv('output.csv') 

すべてこれは(メモリ内の操作に対して有効です70x150 =〜10.5 GB RAM)。これが不可能な場合は、インクリメンタルプロセスを構築するか、daskデータフレームを使用することを検討してください。

0

あなたがAWS

ステップ1である場合は、1つのオプション - 移動データS3(AWSネイティブファイルストレージ) ステップ2へ - にS3からデータを移動するために実行COPYコマンドを - 赤方偏移 ステップ3で各データ構造のテーブルを作成しますレッドシフト(AWSネイティブDW)

COPY command loads data in bulk, detects file name pattern 
関連する問題