hdf5

    0

    2答えて

    私のHDF5データセットの次元を使用して配列を作成したいと思います。私は私のデータセットの寸法を見つけるために次のコードを使用しています。私は double myArr[xrows*yrows]; を使用してアレイを作成しようとすると #include <iostream> #include <string> #include <vector> #include <iomanip> #

    3

    1答えて

    HDF5ファイルから特定の列のみを読み込み、それらの列に条件を渡したい。私の懸念は、私はメモリ内のデータフレームとしてすべてのHDF5ファイルを取得したくないということです。私は自分の必要条件を満たしたカラムだけを手に入れたいです。 columns=['col1', 'col2'] condition= "col2==1" groupname='\path\to\group' Hdf5Fil

    0

    1答えて

    大きな.h5ファイルからいくつかの「行」を抽出して、より小さなサンプルファイルを作成しようとしています。 私のサンプルが元のファイルのように見えるように、私はランダムに行を抽出しています。 #Get length of files and prepare samples source_file = h5py.File(args.data_path, "r") dataset = source_

    2

    1答えて

    私はという2つのデータフレームを持っています。これはpd.HDFStoreオブジェクトに格納され、もう1つはデータフレームに追加されます。 store = pd.HDFStore('dataframe_store.h5') df1 = pd.DataFrame(np.empty((100, 5))) df2 = pd.DataFrame(np.empty((100, 5))) store

    0

    1答えて

    私は巨大なデータセット(〜2000万レコードと10個の列)でPythonを使用した探索的なデータ分析に取り組んでいます。私はセグメント化し、データを集約し、いくつかの視覚化を作成するだろう、私はそのデータセットを使用していくつかの決定木線の回帰モデルを作成するかもしれない。 大量のデータセットがあるため、コアデータを格納できないデータフレームを使用する必要があります。私はPythonには比較的新し

    0

    1答えて

    私はhdf5ファイルに約200個のグループがあります。だから私はと寄木細工のファイルにそれらを変換コード行われた各グループのために:私はそれらを読むことを試みたその後 fastparquet.write(dir_name + '/' + metricname + '.parq', groupDataFrame) を、それは私がそのエラーメッセージが表示されましたいくつかのメトリックを除き素敵取

    0

    1答えて

    ElementAbundanceという名前のフィールドを持つ特定のhdf5ファイルを読み込むスクリプトを作成しようとしています。このファイルには化学元素の分数値があります。 これは私がやっていることです、私はhdf5ファイルを開き、そのファイル内のフィールドのリストを作成します。ファイルにElementAbundanceがある場合、fieldに要求する要素がelements配列にあるかどうかを確認

    1

    1答えて

    h5pyでサイズ変更可能なデータセットを作成しようとしています。初期値は、それに書かれ、その後、彼らは利用可能な追加の値で更新私はこれがしようとすると:。 ds = g2.create_dataset(wf, maxshape=(None), chunks=True, data=values) size = ds.shape[0] + len(values) ds.resize(size, a

    0

    1答えて

    私はHDF5を初めて使用しており、MD5、サイズ、別のデータセットの3つの列を持つ複合型のデータセットを作成しようとしています。 どうすればこの問題を解決できますか? Iは、次のコードを試みた:私はエラーを取得 import h5py import numpy as np dbfile = h5py.File("test.h5",'w') dtype1 = h5py.Dataset('my

    0

    1答えて

    ディスクには〜1000のHDF5ファイルが保存されています。それぞれがメモリにロードするのに約10ミリ秒かかります。そのため、私は線形性能を向上させるために、それらを並列にロードする最良の方法が何であるか疑問に思っていました。 私はマルチプロセッシングを試しましたが、プロセスをセットアップするオーバーヘッドのためにそれらをシリアルにロードするよりも遅くなります。私はCythonを見てきました、特に