150 csvを1つのデータソースに埋め込む

こんにちは私は大きなデータを扱い、Pythonで快適に使えるように新しくなっています私は150のcsvをそれぞれ70MBのサイズで1つのソースに統合して、ユニークなカウント、すべて。150 csvを1つのデータソースに埋め込む

どのようにすればいいですか？私はpythonのpyelastic searchパッケージを見つけました。私が偶然の天蓋で使用するのがどれほど可能ですか？

提案が必要です！

pandasパッケージを使用してください。単一のCSVを読み込む

は

次のようになります。

import pandas as pd 
df = pd.read_csv('filelocation.csv')

複数のファイルの場合は

、ちょうどconcatそれらを。

df = pd.concat([pd.read_csv(f) for f in ls])

、その後、単一のファイルとしてそれらを書くために、実行します：さんはlsは、その後、ファイルの場所のリストであるとしましょうもちろんの

df.to_csv('output.csv')

すべてこれは（メモリ内の操作に対して有効です70x150 =〜10.5 GB RAM）。これが不可能な場合は、インクリメンタルプロセスを構築するか、daskデータフレームを使用することを検討してください。

2017-06-16 11:38:54 Dimgold

あなたがAWS

ステップ1である場合は、1つのオプション - 移動データS3（AWSネイティブファイルストレージ）ステップ2へ - にS3からデータを移動するために実行COPYコマンドを - 赤方偏移ステップ3で各データ構造のテーブルを作成しますレッドシフト（AWSネイティブDW）

COPY command loads data in bulk, detects file name pattern

2017-06-16 11:37:29

答えて