大規模なデータセット、1,100万行があり、そのデータをパンダにロードしました。 rtreeやquad treeのような空間インデックスを作成したいのですが、メモリにプッシュすると、大きなファイルを読み込んでいると同時に1トンのRAMが消費されます。Hdf5と空間インデックス
メモリフットプリントを減らすため、私はインデックスをディスクにプッシュしようとしていました。 ツリーをテーブルに格納できますか?またはデータフレームさえ、hdfテーブルに格納しますか?よりよい戦略はありますか?
ありがとうございました
この質問は少し話題になります。私はかなりmysqlがツリーの格納と検索を処理できることを確信しています。 – James
この質問は何を意味するのかよくわかりませんが、パンダのバッチでデータセットを読むのはどうですか? – Peaceful
@peaceful私は本当に大きなデータセットを持っているかどうか尋ねようとしていますが、私はメモリへのrtreeインデックスではなく、これを行うための戦略、または既存のパッケージがありますか? – JabberJabber