pandasデータフレームを入力と見なす計算があります。私はこの計算を、51GBまで拡張されたNetCDFファイルに保存されたデータで実行したいと思います - 現在、私はxarray.open_dataset
でファイルを開き、チャンクを使用しています(このオープンされたファイルは実際にはdask配列なので、データを一度にメモリに集める)。しかし、計算を実行するためには、xarrayデータをpandasデータフレームに変換する必要があるため、この遅延ロードを利用することはできません。その時点ですべてのデータがロードされます(これは悪いです)。xarrayデータセットをdaskデータフレーム内のpandasデータフレームに変換する方法
私は長い間ストーリーは短いと思いますが、私の質問は、私のデータ全体をメモリにロードする途中で、xarrayデータセットからpandasデータフレームに移動するにはどうすればいいですか?私はpandas.read_csv
とdaskの仕事を見たことがあり、それはxarrayで動作することがわかりますが、すでに開かれたnetCDF xarrayデータセットをチャンク内のpandasデータフレームに変換する方法がわかりません。
ご迷惑をおかけして申し訳ありません。