hdf5

0熱

2答えて

私のHDF5データセットの次元を使用して配列を作成したいと思います。私は私のデータセットの寸法を見つけるために次のコードを使用しています。私は double myArr[xrows*yrows]; を使用してアレイを作成しようとすると #include <iostream> #include <string> #include <vector> #include <iomanip> #

3熱

1答えて

hdf5ファイルから特定の列を読み込み、条件を渡す

HDF5ファイルから特定の列のみを読み込み、それらの列に条件を渡したい。私の懸念は、私はメモリ内のデータフレームとしてすべてのHDF5ファイルを取得したくないということです。私は自分の必要条件を満たしたカラムだけを手に入れたいです。 columns=['col1', 'col2'] condition= "col2==1" groupname='\path\to\group' Hdf5Fil

0熱

1答えて

複数のデータセットで.hdf5ファイルをサブサンプリングする

大きな.h5ファイルからいくつかの「行」を抽出して、より小さなサンプルファイルを作成しようとしています。私のサンプルが元のファイルのように見えるように、私はランダムに行を抽出しています。 #Get length of files and prepare samples source_file = h5py.File(args.data_path, "r") dataset = source_

2熱

1答えて

HDFStoreがHDF5 python pandasデータフレームを更新しました

私はという2つのデータフレームを持っています。これはpd.HDFStoreオブジェクトに格納され、もう1つはデータフレームに追加されます。 store = pd.HDFStore('dataframe_store.h5') df1 = pd.DataFrame(np.empty((100, 5))) df2 = pd.DataFrame(np.empty((100, 5))) store

0熱

1答えて

Py-tablesとBlazeとS-Frameの比較

私は巨大なデータセット（〜2000万レコードと10個の列）でPythonを使用した探索的なデータ分析に取り組んでいます。私はセグメント化し、データを集約し、いくつかの視覚化を作成するだろう、私はそのデータセットを使用していくつかの決定木線の回帰モデルを作成するかもしれない。大量のデータセットがあるため、コアデータを格納できないデータフレームを使用する必要があります。私はPythonには比較的新し

0熱

1答えて

PySpark - 寄木張り - None.Noneを呼び出すときにエラーが発生しました

私はhdf5ファイルに約200個のグループがあります。だから私はと寄木細工のファイルにそれらを変換コード行われた各グループのために：私はそれらを読むことを試みたその後 fastparquet.write(dir_name + '/' + metricname + '.parq', groupDataFrame) を、それは私がそのエラーメッセージが表示されましたいくつかのメトリックを除き素敵取

0熱

1答えて

ループの場合、HDF5ファイルの単一の文字列値

ElementAbundanceという名前のフィールドを持つ特定のhdf5ファイルを読み込むスクリプトを作成しようとしています。このファイルには化学元素の分数値があります。これは私がやっていることです、私はhdf5ファイルを開き、そのファイル内のフィールドのリストを作成します。ファイルにElementAbundanceがある場合、fieldに要求する要素がelements配列にあるかどうかを確認

1熱

1答えて

h5pyで既存のデータセットを拡張しようとするとエラーが発生する：ValueError：拡張データセットを設定できない（既存の最大サイズを超えることはできません）

h5pyでサイズ変更可能なデータセットを作成しようとしています。初期値は、それに書かれ、その後、彼らは利用可能な追加の値で更新私はこれがしようとすると：。 ds = g2.create_dataset(wf, maxshape=(None), chunks=True, data=values) size = ds.shape[0] + len(values) ds.resize(size, a

0熱

1答えて

データセットのh5pyデータセットの作成方法

私はHDF5を初めて使用しており、MD5、サイズ、別のデータセットの3つの列を持つ複合型のデータセットを作成しようとしています。どうすればこの問題を解決できますか？ Iは、次のコードを試みた：私はエラーを取得 import h5py import numpy as np dbfile = h5py.File("test.h5",'w') dtype1 = h5py.Dataset('my

0熱

1答えて

Python - hdf5ファイルを並列に読む

ディスクには〜1000のHDF5ファイルが保存されています。それぞれがメモリにロードするのに約10ミリ秒かかります。そのため、私は線形性能を向上させるために、それらを並列にロードする最良の方法が何であるか疑問に思っていました。私はマルチプロセッシングを試しましたが、プロセスをセットアップするオーバーヘッドのためにそれらをシリアルにロードするよりも遅くなります。私はCythonを見てきました、特に