dask

    1

    1答えて

    分散マルチプロセッシングワーカーでワーカーリソース(http://distributed.readthedocs.io/en/latest/resources.html)を定義すると、すべてのプロセスに対して定義されたリソースプールはありますか?例えば 、労働者のホスト上で、私が実行しています: dask-worker --nprocs 8 --resources HOST=1 を今、私はre

    1

    1答えて

    daskデータフレームに複数の操作を適用します。特定の操作の分散ワーカーリソース要件を定義できますか? (マップ()のためのものよりも潜在的に異なる))私はmap_partitions(のためのリソース要件を指定したい df.fillna(value="").map_partitions(...).map(...) が、この方法のように思えるがリソースパラメータを受け付けません。私のような何か

    0

    2答えて

    Daskを使用してgroupBy集計を行った後、指定された列から一意の項目数を取得できるかどうかを知りたいと思います。私はこのようなことはドキュメントには見当たりません。これはパンダのデータフレームで利用でき、本当に便利です。私はこれに関連するいくつかの問題を見てきましたが、実装されているかどうかはわかりません。 誰かに私にこのことについてのヒントを教えてもらえますか?

    0

    1答えて

    delayedを使用して計算のグラフを作成するときに、グラフを視覚化すると読みやすくなるように名前を割り当てようとしています。しかし、関数に依存する遅延変数の場合、nameパラメータはキーに影響を与えていないようです。ここでおもちゃの例を示します(私は画像を埋め込むことはできません) def calc_avg(a, b): return pd.concat([a, b], axis=1)

    1

    1答えて

    dask(async)フレームワークを使用して単純なタスク(インスタンスメソッド)を実行しようとしていますが、シリアル化エラーで失敗します。 誰かが私を正しい方向に向けることができますか?ここで は、私が実行しているコードです: from dask.distributed import Client, as_completed import time class DaskConnect:

    0

    2答えて

    NYC taxi Datasetの200Gbをプロットしたいと思います。 私は、データシートを使ってパンダのデータフレームをプロット/ビジュアル化することができました。 しかし、PySparkデータフレーム(各ノードで8Gb RAMを備えた4ノードクラスタを使用)を使用して、それを実現しました。私ができることは、を使用することです。 toPandas() PySparkデータフレームをPandas

    0

    1答えて

    daskデータフレームに列を追加しようとしましたが、リストタイプの列を追加できないため、ちょっとしたことがありました。しかし私は自分のリストをdaskシリーズに変換できません。あなたは私を助けることができます?それがメモリに収まる場合は、パンダのデータフレームにリストを変換することができ

    3

    1答えて

    daskが更新され、groupbyのカスタム集計関数をサポートするようになりました。 (これに取り組んでくれた開発チームと@chmpのおかげで!)。私は現在、モード関数と対応するカウント関数を構築しようとしています。基本的には、モードは特定の列(すなわち、[4,1,2])の最も一般的な値のリストを各グループごとに返します。さらに、これらの値のインスタンス数を返す、対応するcount関数があります。

    2

    1答えて

    jupyterノートブックから使用するときにdaskから異常な動作が発生しています。だから私は地元のクライアントを開始し、それを行う仕事のリストを与えています。 1. DASKは、この例では9個以上のプロセスを開始します。 from dask.distributed import Client def inc(x): return x + 1 if __name__ == '__main