同じ表のデータを読み込んでいますが、非常に大きいです。 100万レコード以上。 250,000のチャンクを作成する方が良いと思ったので、私は4 DataFramesを得る。パンダの連結業績
frames = []
for chunk in chunks(some_very_large_list, 250000):
frames.append(pd.DataFrame(data=chunk, columns=['A', 'B', 'C']))
私は一緒にすべてをマージすることは非常に長い時間がかかっているpd.concat(frames)
呼び出します。このプロセスをスピードアップする最善の方法は何ですか?または助けない場合がありますあなたが試みることができる
すべてのデータをモノリシックブロックにロードすることと比較しましたか? – languitar
はい、非ネイティブサポートDBからすべてをロードする必要があるため、パフォーマンスはあまり良くありません。 –