私が働く会社では、毎日何千ものファイルを処理する必要があり、それには数時間かかることがあります。操作は、PDFを高解像度画像に変換し、後でそのような画像を多くの異なるサイズで作成するような、基本的にCPUを集中させます。クラスタ内の複数のファイルを並列処理する
これらのタスクはそれぞれ1つのCPUで多くの処理が行われるため、同じマシン上で複数のインスタンスを開始することは簡単ではありません。したがって、すべてを完了するまでに数時間かかります。
私が見るように、最も分かりやすいことは、ファイルセットを分割し、同時に複数のマシンで処理させることです(5,10,15台のマシン、必要な数はまだ分かりません)。
私は、ホイールを再発明してタスクのマネージャーを作成したいと思っていません。(やりたいこともありませんが)どのツールを使用するべきかわかりません。
私たちは大きなデータを持っていませんが、私はHadoopを見ています(私たちはAmazonで動作しています)。ノードを処理する機能は面白そうです。しかし、私はそれを使用することが理にかなっているかどうかわかりません。私もヘーゼルキャストを見ていますが、私はそれやコンセプトについて全く経験がありません。
このタスクにはどのような方法が適していますか?
おかげさまで、ヘーゼルキャストの全体的な解決策はかなり良いように見えますが、それに私が使用することができる他のいくつかの機能もあります。 –