dask-delayed

    1

    1答えて

    TLに並列化するDASKを使用した; DR:私たちは、私は、一般的にプロジェクトに取り組んでいる同じHDF からの読み取りと書き込みDASKとパンダのコードを並列化の問題を抱えています読み込み、翻訳(またはデータの結合)、およびこれらのデータの書き込みの3つのステップが必要です。文脈のために、私たちは医療記録を扱っています。医療記録はさまざまな形式でクレームを受け取り、それらを標準化された形式に翻

    1

    1答えて

    dask.delayedというタスクがある場合、そのタスクのすべての入力(親)のリストを取得したいと考えています。例えば 、 from dask import delayed @delayed def inc(x): return x + 1 def inc_list(x): return [inc(n) for n in x] task = delayed(su

    0

    1答えて

    - 1:23:25 - 1:23:45に、*.h5ファイルにカテゴリ型列のDaskデータフレームを格納しようとしています。ここで はstore関数への私の呼び出しです: stored = store(ddf,'/home/HdPC/Analyzed.h5', ['Tag']) 機能storeは次のとおりです。 @delayed def store(ddf,fp,c): ddf.ca

    0

    1答えて

    delayedを使用して計算のグラフを作成するときに、グラフを視覚化すると読みやすくなるように名前を割り当てようとしています。しかし、関数に依存する遅延変数の場合、nameパラメータはキーに影響を与えていないようです。ここでおもちゃの例を示します(私は画像を埋め込むことはできません) def calc_avg(a, b): return pd.concat([a, b], axis=1)

    2

    1答えて

    非常に大きなDAGを構築して、分散スケジューラに提出します。ノードは、非常に大きなデータフレームで動作します。 1つのパターンは、データをロードし、それぞれ数百MBの(そして論理的に1つのテーブルのパーティションを表す)パンダのデータフレームを構築する約50〜60の関数を持っていることです。データの移動を最小限に抑えながら、これらをグラフ内の下流ノードの単一のdaskデータフレームに連結したいと思

    2

    1答えて

    私はdaskを試してみる新しいユーザーです。 Delayedに関数とコードを自動的に変換するためにdelayedを使用したい。しかし、私はdelayed.computeを再帰的コレクションで遅延計算しませんでした... from dask import delayed, base @delayed def inc(x): return x + 1 @delayed def c

    0

    1答えて

    daskからdask.arrayを作成する最も効率的な方法は何ですか? このシリーズは、500万のリスト300から構成されています。 現在、500個のパーティションに分割されています。 は、現在、私がしようとしています: pt = [delayed(np.array)(y) for y in [delayed(list)(x) for x in series.t

    0

    2答えて

    dask.compute(...)はブロッキング呼び出しであると予想されます。しかし、dask.computeをネストし、内側のものが(dask.dataframe.read_parquetのように)I/Oを実行すると、内部のdask.computeはブロックされません。私はのように、それぞれ8つのプロセスと2人の労働者を開始した場合 import dask, distributed def