2016-11-20 22 views
1

python-pandasの知識とスケーラブルなクラウドを持つことで、クラウドで並列計算を実装する最良の方法は何ですか? (多くのマシンではなく、多くのCPUを搭載したマシンが1台しかありません)Pythonによるクラウドでの並列処理

私が現在持っているクラウドは、Windowsサーバ(最大40CPUと160GBのスケーラブル)を持つAmazonのものですが、クラウドプロバイダと異なるOS。

I 2つの可能性を考えた:スタンドアロンスパーク

  • (他のSWなし)Python標準マルチプロセッシングモジュールを使用して

    • Pythonインタフェースと

    スパークは、Pythonマルチよりも効率的でなければなりませんか?私が評価できる他の方法はありますか?

  • 答えて

    1

    "起動スクリプトを使用してSparkスタンドアロンクラスタを起動するには、Sparkディレクトリにconf/slavesというファイルを作成する必要があります。このファイルには、1行に1つずつSparkワーカーを開始するすべてのマシンのホスト名"幸運

    +0

    OK THX http://spark.apache.org/docs/latest/spark-standalone.html#cluster-launch-scripts

    が、私は雲の中に、40以上のCPUを1つのマシンだけを使用するように思っている:

    はこちらを参照してください。このようにして、スパークが本当に必要なのですか、またはPythonの組み込みマルチプロセッシングモジュールだけを使用できますか? – DPColombotto

    +1

    このような状況では、私はSparkや分散型ツールを使うべきではないと思います。 私はPythonでマルチプロセッシングを使うことをお勧めします。このようにして、大量のCPUが得られます。 –

    +0

    https://docs.python.org/2/library/multiprocessing.htmlを確認してください –