こんにちは私は大きなデータを扱い、Pythonで快適に使えるように新しくなっています 私は150のcsvをそれぞれ70MBのサイズで1つのソースに統合して、ユニークなカウント、すべて。150 csvを1つのデータソースに埋め込む
どのようにすればいいですか? 私はpythonのpyelastic searchパッケージを見つけました。私が偶然の天蓋で使用するのがどれほど可能ですか?
提案が必要です!
こんにちは私は大きなデータを扱い、Pythonで快適に使えるように新しくなっています 私は150のcsvをそれぞれ70MBのサイズで1つのソースに統合して、ユニークなカウント、すべて。150 csvを1つのデータソースに埋め込む
どのようにすればいいですか? 私はpythonのpyelastic searchパッケージを見つけました。私が偶然の天蓋で使用するのがどれほど可能ですか?
提案が必要です!
pandas
パッケージを使用してください。単一のCSVを読み込む
次のようになります。
import pandas as pd
df = pd.read_csv('filelocation.csv')
複数のファイルの場合は
、ちょうどconcat
それらを。
df = pd.concat([pd.read_csv(f) for f in ls])
、その後、単一のファイルとしてそれらを書くために、実行します:さんはls
は、その後、ファイルの場所のリストであるとしましょうもちろんの
df.to_csv('output.csv')
すべてこれは(メモリ内の操作に対して有効です70x150 =〜10.5 GB RAM)。これが不可能な場合は、インクリメンタルプロセスを構築するか、dask
データフレームを使用することを検討してください。
あなたがAWS
ステップ1である場合は、1つのオプション - 移動データS3(AWSネイティブファイルストレージ) ステップ2へ - にS3からデータを移動するために実行COPYコマンドを - 赤方偏移 ステップ3で各データ構造のテーブルを作成しますレッドシフト(AWSネイティブDW)
COPY command loads data in bulk, detects file name pattern