2017-01-06 6 views
0

私はpandas.HDFStore()のパンダでHDF5に約800 GBの巨大なデータフレームを保存しました。HDF5ファイルをParquetファイルに変換するにはどうすればよいですか?

import pandas as pd 
store = pd.HDFStore('store.h5') 
df = pd.Dataframe() # imagine the data being munged into a dataframe 
store['df'] = df 

私はこれをImpalaでクエリしたいと思います。このデータをParquetに解析する簡単な方法はありますか?あるいは、ImpalaはあなたがHDF5で直接作業できるようにしていますか? HDF5のデータには別のオプションがありますか?

答えて

0

私はこれを試していませんが、Spark:https://gist.github.com/jiffyclub/905bf5e8bf17ec59ab8fを使用してHDFStoreをParquetに変換する方法を示すリンクがあります。

+0

'hdf_to_parquet.py'を実行した場合、これらのパーケットファイルはディスクに書き込まれますか?私はこれらをImpalaにインポートできますか? – ShanZhengYang

関連する問題