joblib

0熱

1答えて

forループを高速化するための並列処理を統合したい。ただし、私のコードが遅く実行されたことに気付きました。私がjoblibを単純な関数で乱数のリストに使用している以下の例を参照してください。はなしで、並列処理はより速く実行され、となります。何が起こっているかについての洞察はありますか？ def f(x): return x**x if __name__ == '__main__

0熱

1答えて

並列処理中にセレニウムドライバインスタンスを再利用するには？

URLのプールをスクラップするには、私はjoblibでセレンを並列処理しています。この文脈で、私は2つの課題に直面しています：挑戦1は、このプロセスをスピードアップすることです。現時点では、私のコードは、すべてのURL（理想的にはすべてのプロセスの1つになる）のドライバインスタンスを開き、閉じます。挑戦2はCPU集約的なwhileループを取り除くことですが、空の結果にはcontinue私の理解

1熱

1答えて

joblibでカスタムトークン化関数を使用してCountVectorizerをシリアライズする方法

カスタムトークン化メソッドでCountVectorizerを使用します。私はそれをシリアル化するとき、それをアンシリアライズ、私は、次のエラーメッセージが表示されます。 AttributeError: module '__main__' has no attribute 'tokenize' にはどうすればtokenize方法を「シリアライズ」ことができますか？ここが小さい例である：（それは

0熱

1答えて

joblibの減速の調査

joblibを使用して、カスタムランダムフォレストの実装列を並行して作成しようとしています。タスクは恥ずかしそうに並行しているので、私はスピードアップを得ることがjoblibであまりにも厳しくすべきではないと考えました。ここでは、いくつかのサンプルコードです： class RandomForest(object): def __init__(self, settings, data)

0熱

1答えて

このジョブライブラリとは何ですか？並列構文は何をしていますか？非常に多くのかっこ

Scikit-learnは、のような呼び出しと並列化するために、しばしばjoblibを使用します。 This helpful question and answerこの二重括弧ビジネスは、最初のセットを含む呼び出しによって返されるものに2番目のセットが渡されることを示しています。これは、返されたものが呼び出し可能である場合には非常に意味があります。ここでParallel(n_jobs=n_job

0熱

1答えて

joblibを使用してSeleniumスクレープタスクを並列化するにはどうすればよいですか？（動作しない例）

私はIndian 2011 Censusからデータを抽出する必要があります。私はSeleniumを使用していて、以下のような作業スクリプトを持っていますが、joblibライブラリとParallelを使ってタスクを並列化しようとしています。このスクリプトを実行するとエラーは発生しません。タスクマネージャー（Windows 10）でプロセッサがアクティブになっているのを観察しますが、このプログラムを実

0熱

1答えて

joblibのグローバル変数を初期化する前にテンソルがハングアップする

私はCPU内にマルチレイヤCNNを持っていますtensorflow。私はとdelayedの機能をjoblibに使用して、同じデータセットで訓練されたCNNの複数のインスタンスを学習しています。私はこれを実行しようとするとjoblib労働者がそのtf.Session()を開始した後、しかし、任意のtensorflow変数が初期化される前に、と私はParallel機能のverbose引数から任意の

1熱

1答えて

データをarangodbに転送しようとしたときにデータが混乱します

私はcaを転送しようとしています。 10GBのjsonデータ（私の場合はつぶやき）をarangodbのコレクションに追加します。また、私はそれのためにJOBLIBを使用しようとしている： from ArangoConn import ArangoConn import Userdata as U import encodings from joblib import Parallel,de

0熱

1答えて

新しいデータをロードして予測するsklearn

ロジスティックモデルを訓練し、相互検証し、joblibモジュールを使用してファイルに保存しました。今私はこのモデルを読み込み、それを使って新しいデータを予測したいと思います。これは正しい方法ですか？特に標準化。私も新しいデータにscaler.fit（）を使うべきですか？私が従ったチュートリアルでは、scaler.fitはトレーニングセットでのみ使用されていたので、ここで少し失われています。ここで

0熱

1答えて

joblib.Parallelは、異なるセットではなく、同じデータセットを複数回処理します。

私はこれらの画像に対して何らかの処理をしている3D脳画像のマトリックス配列を持っています。 Xは、脳のIDで、Yは、私が次のシーケンシャルコードのためのいくつかの機能拡張を作るために、後でそれを再構築していたデータである完全にそれを行う：入力行列は、M [X、Y]は次のようになります。 def transform(X): data = np.reshape(X, (-1, 176, 208,