私は概念的な質問があります。実行時間を短縮する
データセットを入力として処理し、処理して出力をアレイに書き込む手続き(任意の言語)があるとします。この配列は、さらに処理するためにストリームの下で使用されます。問題は、コードが実行時間が長いことです。それはそれが最適化する必要があるほど大きいです!
私が提案しているのは、入力データセットをより小さなチャンクに分割し、パラレルに設定された各データのプロシージャを呼び出すことです。シンプルに聞こえる!
私は別のファイルに手順を書いて、別の実行可能ファイルを作成すると考えました。バッチ処理のためのより小さいデータセットに対してこの実行可能ファイルを送信します。
しかし、この方法の問題点は、バッチジョブのそれぞれが別々のプロセスであるため、これらのすべてのジョブから先に作成したアレイを作成する方法です。各ジョブの出力をファイルに書き込んだ後、それらを処理してアレイバックを作成することも考えられます。
もっと良い方法が並行して実行できますか?ご提案のための
感謝:)
[MapReduce](http://en.wikipedia.org/wiki/Map_Reduce)について説明しています。 –
ありがとうございます。私はそれについて何も知らない。任意の理想的なその自由に利用可能な場合、それを使用して多くの仕事になるか? – Richeek