1
python-pandasの知識とスケーラブルなクラウドを持つことで、クラウドで並列計算を実装する最良の方法は何ですか? (多くのマシンではなく、多くのCPUを搭載したマシンが1台しかありません)Pythonによるクラウドでの並列処理
私が現在持っているクラウドは、Windowsサーバ(最大40CPUと160GBのスケーラブル)を持つAmazonのものですが、クラウドプロバイダと異なるOS。
I 2つの可能性を考えた:スタンドアロンスパーク
- Pythonインタフェースと
スパークは、Pythonマルチよりも効率的でなければなりませんか?私が評価できる他の方法はありますか?
OK THX http://spark.apache.org/docs/latest/spark-standalone.html#cluster-launch-scripts
が、私は雲の中に、40以上のCPUを1つのマシンだけを使用するように思っている:
はこちらを参照してください。このようにして、スパークが本当に必要なのですか、またはPythonの組み込みマルチプロセッシングモジュールだけを使用できますか? – DPColombotto
このような状況では、私はSparkや分散型ツールを使うべきではないと思います。 私はPythonでマルチプロセッシングを使うことをお勧めします。このようにして、大量のCPUが得られます。 –
https://docs.python.org/2/library/multiprocessing.htmlを確認してください –