0
私はpandas.HDFStore()
のパンダでHDF5に約800 GBの巨大なデータフレームを保存しました。HDF5ファイルをParquetファイルに変換するにはどうすればよいですか?
import pandas as pd
store = pd.HDFStore('store.h5')
df = pd.Dataframe() # imagine the data being munged into a dataframe
store['df'] = df
私はこれをImpalaでクエリしたいと思います。このデータをParquetに解析する簡単な方法はありますか?あるいは、ImpalaはあなたがHDF5で直接作業できるようにしていますか? HDF5のデータには別のオプションがありますか?
'hdf_to_parquet.py'を実行した場合、これらのパーケットファイルはディスクに書き込まれますか?私はこれらをImpalaにインポートできますか? – ShanZhengYang