フラットファイルには、Python Pandas/Pytables/H5pyを使用して高速化するために、クエリと検索。私はto_hdf
のようなものを使ってデータの各サブセクションを変換し、それらをHDFStoreに格納することを計画しています。HDFStore:既存のテーブルにデータを追加してから再インデックスを作成して新しいテーブルを作成するまでの効率
保存されたデータは決して変更する必要はありませんが、データを後で特定のサブセクションに追加してから、ピース全体を再索引付けする必要があります。
私の質問は、既存のテーブルにデータを追加して(store.append
を使用して)、新しいテーブルを再インデックスする方が効率的ですか?追加する必要があるデータで新しいテーブルを作成するだけですか?
後者の場合、HDSFStoreにLOT(100k以上)ノードを作成する可能性があります。それはノードのアクセス時間を短縮しますか?
私は他の答えを見ようとしましたが、効果があるかどうかを確認するためにノードの束を使って自分の店を作りましたが、重要なものは見つかりませんでした。どんな助けもありがとう!
効率的とはどういう意味ですか?時間を最小限にするか、スペースや組み合わせを最小限に抑えますか? –