私は現在、研究者が50ノードクラスタで4ヶ月かかると科学計算プロジェクト(確率的なトラクトグラフィー手法described here)が実行されていると聞いて、他のオプションを調べる。プロジェクトは現在、並列Pythonを使用して4Dアレイのチャンクをさまざまなクラスタノードに配信し、処理されたチャンクをまとめて戻します。パラレルPythonコードをクラウドに移動する
私が現在取り組んでいる仕事は、あまりにも粗すぎる(5秒から10分、並列のPythonでタイムアウトのデフォルトを大きくしなければならなかった)のですが、私はプロセスを2-4倍高速化できると推測していますデータを再利用することで、リソースをより有効に活用することができます(データの分割と復元は時間がかかりますが、並列化する必要もあります)。ほとんどの場合、numpy配列で行われます。
2〜4回では不十分だとしましょう。ローカルのハードウェアからコードを取り除くことにします。このような高スループットコンピューティングのために、私の商用オプションは何ですか?また、コードをどのように変更する必要がありますか?
または、暗黙のうちに、誰が既にこの情報を書き留めていますか、どのように入手できますか。 – Thomas