dask

    0

    2答えて

    dask.compute(...)はブロッキング呼び出しであると予想されます。しかし、dask.computeをネストし、内側のものが(dask.dataframe.read_parquetのように)I/Oを実行すると、内部のdask.computeはブロックされません。私はのように、それぞれ8つのプロセスと2人の労働者を開始した場合 import dask, distributed def

    2

    1答えて

    私はパンダのデータフレームのオブジェクトの「複合体」のフィルタリングを行うために使用しています: import numpy as np import pandas as pd data = pd.DataFrame(np.random.random((10000, 2)) * 512, columns=["x", "y"]) data2 = data[np.sqrt((data.x - 20

    1

    1答えて

    S3に保存(圧縮)したいいくつかのcsvファイルに大きなデータセット(〜1テラバイトのデータ)があります。圧縮ファイルをdaskに読み込むのは問題がありました。サイズが大きすぎるためです。私の最初の解決策は、各csvを管理可能なサイズに分割することでした。これらのファイルは、次のように読まれています。私は、完全なデータセットを摂取する前に ddf = dd.read_csv('s3://bucke

    1

    1答えて

    Linux CentOS 7でPython 3.6.2をインストールしてDask Distributedを実行しています。私の計算はうまくいくようです(私はまだコードを改善していますが、いくつかの結果が得られます)が、明らかに竜巻モジュールにリンクされたいくつかのpythonエラーが出ています。私は1つのノードスタンドアロンのDask分散クラスタを起動しています。ここで は、最も一般的な例である:

    1

    1答えて

    問題 を介して配布DASKを使用してボケサーバーへのアクセス。私はトンネリングを介してマスターノードに接続し、bokehサーバーへのアクセス方法はわかりません。 ステップ 接続1. SSHトンネリングを経由して自分のサーバーのマスターノードへ: ssh -L 7000:localhost:7000 [email protected] 2. [スタート私は(もポート7000でトンネリング)を使用する

    1

    1答えて

    私たちは以下を実装する必要があります。 のRedisからJSON文書を取得することは 抽出し、JSON文書を解析します:チャンネルから消費メッセージごとに :メッセージの既知の数を提供しますRedisのチャネルを考えます結果のリストには、単一の結果を生成するために、すべての結果オブジェクト間で 集計オブジェクト 多くの作業者にステップ1と2の両方を配布し、すべての結果をメモリに集めないようにします

    1

    1答えて

    私はこれがDASKのバグやPythonの機能がある場合はわからないラムダ関数のループに適用されます。簡単な例: data = pd.DataFrame({'tags': [['dog'], ['cat', 'red'], ['cat'], ['cat', 'red'], ['cat', 'red'], ['dog', 'red']]}) print data tags 0 [

    1

    1答えて

    私はdask.distributedを使用してさまざまな種類のデータ処理パイプラインを実装しています。通常、元のデータはS3から読み込まれ、処理された(大きな)コレクションはS3のCSVに書き込まれます。 処理を非同期に実行して進捗状況を監視できますが、コレクションをファイルに保存するすべてのto_xxx()メソッドが同期呼び出しのようです。その欠点の1つは、コールがブロックされる可能性があり、潜

    1

    1答えて

    dask.distributedワーカーを実行すると、タスク関数にスローされた例外がスケジューラに伝播され、ジョブ全体が強制終了されます。スケジューラが(別のワーカーに)潜在的にそれを再試行するように、正常にタスクを失敗させる方法はありますか?