大きな行列の大きなディレクトリがあり、そのような行列に高価な演算を適用しています。パイプラインは次のようになります。pyspark/hadoop/etcを使って手続きの速度を上げる方法は?
Directory -> extract matrices -> apply operations -> save in a .csv file
私は前の "パイプライン"の関数にラップすることに注意してください。これまでのところ、Pythonのマルチプロセッシングライブラリでは、私は1週間で前のパイプラインを適用することができました。しかし、スパークマップで「並列化」することができれば、私は興味があります。前の機能を減らす方法です。したがって、私の仕事はpysparks map reduceで強化できますか?どのように速度を上げることができますか? (私はちょうど2つのノートパソコンを持っています)、あなたは他の人が私のパイプラインの速度を機能を変更せずに増やすことを勧めていますか?
Sparkにジャンプする前にDaskを試してください –