イメージURLが改行で区切られたテキストファイルがあります。EMRを使用してダウンロードURLから膨大な数の画像を処理する方法
大量の画像をS3バケットに保存して処理し、nodejsで処理したいとします。
もっと良い解決策ではない場合、EMRを使用してこれを行うにはどうすればよいですか?
イメージURLが改行で区切られたテキストファイルがあります。EMRを使用してダウンロードURLから膨大な数の画像を処理する方法
大量の画像をS3バケットに保存して処理し、nodejsで処理したいとします。
もっと良い解決策ではない場合、EMRを使用してこれを行うにはどうすればよいですか?
S3 +ラムダの使用を検討することができます。あなたがダウンロードしたい画像の数に応じて、もちろん、それらで何をする必要がありますか。テキストファイルを読み込んで各イメージをフェッチし、それぞれをS3に配置するEC2インスタンス(またはローカルマシンでも)に対してノードプロセスを実行できます。 S3にトリガーを作成すると、新しいアイテムがバケットに置かれたときにAWSラムダ関数が呼び出されます。ラムダ関数は、必要に応じて画像を処理することができます。ここでの制限は、Lambdaは最大実行時間が5分であるため、実際に画像で何をする必要があるかによって異なります。処理時間がこの時間よりも短い場合は、OKにしてください。
これは、負荷に対処するために必要な数のラムダインスタンスを作成するので、比較的簡単で高速です。
おそらく、予算内に収まるかどうかを確認するためにこれをモデル化する合理的な考え方は、https://aws.amazon.com/lambda/pricing/です。
テキストファイルを繰り返し処理して、S3に画像をダウンロードしてから、サムネイルの作成など、画像ごとに何らかの処理を実行しようとしていますか?いくつのURLを処理しますか?どのくらいの頻度でこれを実行しますか?テキストファイルはどこにありますか? – smcstewart
はい。それは1つのオフになります。テキストファイルはS3バケットにあります –