私は同じアルゴリズムを実行するのに必要な~1GBのTIFF画像を50TB持っています。現在のところ、私はC++で書かれた修正プロセスを持っていますが、うまく動作しますが、これらのイメージすべてを連続して実行するには永遠にかかるでしょう。私はMapReduce/Sparkの実装がうまくいくことを理解していますが、イメージ入出力の使い方を理解できないようです。Hadoop for Large Image Processing
私が見たすべてのチュートリアル/例はプレーンテキストを使用しています。理論的には、Amazon Webサービスも利用したいと考えています。誰かが私のためにある方向性を持っているなら、それは素晴らしいだろう。私は明らかに完全な解決策を探していませんが、誰かがこれに近い何かを成功裏に実装したのでしょうか?前もって感謝します。
ありがとう、本当にありがとう。このDockerコンテナ/キューのアイデアはうまくいくようです。したがって、私が理解できるように、既存のC++コードをコンテナにラップし、すべてのファイル名をsqsキューに追加します。次に、キューのサイズに応じて特定の数のEC2を起動し、それぞれにコンテナを送信します。各EC2がジョブを終了すると、新しいイメージがS3に書き込まれ、そのジョブがキューから削除されますか? – HelloWor1d
そうです。アプリケーションをコンテナにラップすることは簡単です(すべての依存関係/ライブラリを追加し、コンパイルされたバイナリアプリケーションをコピーし、 'RUN'コマンドを追加するだけです)。[Dockerfile](https://docs.docker.com/engine/reference/ビルダー/) –
すごく、私はそれを調べ始めるだろう。各EC2に2つの仕事を送るのは理にかなっているのだろうか?ある特定の長さで、EC2が他のものを終えるときにジョブを追加するのですか? – HelloWor1d