現在、100万行(可変長)のデータセットがあります。PythonでHDF5ファイルに大量の数値を書き込む
このデータをHDF5ファイルに書き込んで、後で使用することができます。 私はこれを動作させましたが、それはと信じられないほど遅いです。たとえ1000の値でさえ、HDF5ファイルに保存されるのに数分かかります。
私はSOやH5Pyのドキュメントを含むあらゆる場所を探していましたが、私のユースケースを説明するものは実際には見つかりませんでしたが、それはできます。
import h5py
import numpy as np
# I am using just random values here
# I know I can use h5py broadcasts and I have seen it being used before.
# But the issue I have is that I need to save around a million rows with each 10000 values
# so I can't keep the entire array in memory.
random_ints = np.random.random(size = (5000,10000))
# See http://stackoverflow.com/a/36902906/3991199 for "libver='latest'"
with h5py.File('my.data.hdf5', "w", libver='latest') as f:
X = f.create_dataset("X", (5000,10000))
for i1 in range(0, 5000):
for i2 in range(0, 10000):
X[i1,i2] = random_ints[i1,i2]
if i1 != 0 and i1 % 1000 == 0:
print "Done %d values..." % i1
このデータはデータベースから来て、それが中に見られるように、事前に生成されたNP配列ではありません:私は、私が今やっている記述デモのソースコードをした以下
ソースコード。
このコードを実行すると、「Done 1000 values」が出力されるまでに時間がかかることがわかります。
私は、8GB RAM、Ubuntu 16.04 LTS、Intel Core M(Core i5と同様の性能を備えています)とSSDを搭載したラップトップを使用しています。
私はここでの放送について読んだ:http://docs.h5py.org/en/latest/high/dataset.html
私はこのようにそれを使用する場合:
for i1 in range(0, 5000):
X[i1,:] = random_ints[i1]
それはすでに速く大きさを行く(行っては数秒です)。しかし、私は可変長データセット(カラムは可変長)で動作させる方法を知らない。私はHDF5のコンセプトの良いアイデアを今は持っていないと思うので、これがどのように行われるべきであるかの洞察力を少し得るのはいいです:)多くのありがとう!
はい、ファイルへの個々の数値の反復と書き込み(またはメモリ内のnumpy配列への書き込み)は遅いです。スピードを上げるために、数千の大きなチャンクで作業したいと考えています。 – hpaulj
@hpauljヘッドアップありがとう。あなたはそれについて詳述できますか?可変長をどうすれば処理できますか?私の本能は、最大のカウンターパートに列を塗りつぶして、私の質問に2番目のコードブロックを使用して数字を挿入するように指示します。それはこの問題に取り組むための良い方法ですか? –
可変長を使用するデモコードには何も表示されません。あなたがやっていることは、要素ごとまたは行ごとに配列をファイルに書き込むことだけです。 – hpaulj