キー付きの500GBテーブルをHDF5にダンプし、特定のキーに一致する行を取得したいとします。 HDF5ファイルの場合データストレージではなく、データを取得するためにHDF5が効率的ですか?
、すべてのデータアクセスは、整数「行」番号を使用してのような項目は、私はHDF5の外で数マップ」の行に」キーを実装する必要がありますように思える。
ないですHDFSを使用するHadoopやSparkなどの分散システムでより効率的に検索することができますか?マップ/ハッシュ関数を実装する分散システムを使用する必要がありますか?
どのような意味で、キーと値のペアにアクセスするのではなく、mapreduceを使用していますか?なぜHIVEはHDF5より効率的でしょうか? – ShanZhengYang