dask

    1

    2答えて

    私はinfとnansの両方をドロップする必要があるdaskシリーズを持っています。 .dropna()は、nansのみを削除します。 numpy/pandasでは、私はresult = result[np.isfinite(result)]のような何かをするでしょう。 dask-landで推奨されるものは何ですか?ブール配列でdaskオブジェクトをインデックスすると、エラーが発生します。 infま

    0

    1答えて

    ここに、時間の経過とともに労働者を失うことを示すためのmcveがあります。これは、例えばはかなり最小限のではなく、それは私たちの典型的な作業パターンのアイデアを与えるん Distributing graphs to across cluster nodes にフォローです。問題を引き起こすには睡眠が必要です。これは、以前の結果から大きなグラフを生成する必要があるため、完全なアプリケーションで発生し

    1

    2答えて

    私の目標は、3つのLinux(ubuntu)物理ワークステーションのグループにdocker swarmを設定し、その上にdaskクラスタを実行することです。 $ docker --version Docker version 17.06.0-ce, build 02c1d87 私は、ドッキングウィンドウの群れを初期化し、群れにすべてのマシンを追加することができています。 cordoba$ d

    1

    1答えて

    私はローカルでdask clientを使用しています。問題は、私がまだローカルスケジューラを使用していても、メモリ内に多くのPythonインスタンスが残っているときです。 x.compute(get=dask.get) from dask.distributed import Client client = Client() # Starts local cluster x.compute(

    0

    1答えて

    他のシリーズのフィルタに基づいてカテゴリ別のSeriesを作成したいと思います。パンダで、私はどうなる次DASK Seriesある import numpy as np import pandas as pd x = pd.Series(np.random.random(10)) test = x < 0.5 label = pd.Series(pd.Categorical.from_co

    1

    1答えて

    データフレームに欠損値を代入しようとしていますdf。私は列Aと300 NaN'sを持っています。ランダムに2/3をvalue1に、残りをvalue2にランダムに設定したいと思います。 助けてください。 EDIT:私は実際にアイテムの割り当てをサポートしていないdaskでこれを試しています。これは私が現在持っているものです。当初、私は次のエラーを得たすべてNA's da.where(df.A.isn

    1

    1答えて

    短期間に大量のタスクが送信された場合、daskスケジューラが強制終了されますが、メモリエラーが発生します。 クラスタ上で現在のタスク数を取得することができれば、クラスタに送信された並行タスクの数を簡単に制御できます。 注:タスクは、複数のクライアントから同じスケジューラに送信されています。

    1

    1答えて

    fire_and_forgetを使用してタスクグラフを送信すると、後で(新しいプロセス/クライアントで)それらのタスクを(たとえばキー名で)キャンセルできますか? また、それはすべての依存するタスクをキャンセルするか、これらもまた「fire_and_forget」のようなものでしょうか?

    2

    2答えて

    同じスキーマを持つ複数の寄せ木ファイルを単一のデータフレームに読み込むには、daskを使用する必要があります。これは、すべて同じディレクトリにあるときに機能しますが、別々のディレクトリにあるときには機能しません。例えば : import fastparquet pfile = fastparquet.ParquetFile(['data/data1.parq', 'data/data2.parq