10個のインスタンスを使用して20Gbの入力を処理する必要があると仮定します。 5Gbの4つの入力ファイルと比較して、2Gbの10個の入力ファイルを持つのと違いはありますか? 後者の場合、Amazon Elastic MapReduceは4つの入力ファイルの負荷を10のインスタンスに自動的に分散できますか? (私のマッパーはルビーを使って書かれているので、ストリーミング方法を使用しています)Amazon Elastic Map Reduce:入力断片サイズの問題がありますか
0
A
答えて
3
ファイルが分割可能かどうかだけです。
ファイルが圧縮されていないプレーンテキストまたはlzoで圧縮されている場合、Hadoopは分割を並べ替えます。
X5の2GBのファイルは、1ギガバイトのファイルが再び〜100分割になります
X10となり、再び〜100の分割、ひいては〜100マップタスク(10ギガバイト/ 128メガバイト(EMRのブロックサイズ)〜= 100)になります100のマップタスク。
ファイルがgzipまたはbzip2圧縮されている場合、Hadoop(少なくともEMRで実行されているバージョン)はファイルを分割しません。
X5の2GBのファイルは、5分割(及び再び従ってのみ5マップタスク)をもたらすであろう
X10の1GBのファイルは、10分割(及び再び従ってのみ10マップタスク)をもたらすであろう
マット
関連する問題
- 1. Hadoop on EC2とElastic Map Reduce
- 2. Elastic Map Reduceにログオンするベストプラクティス - AWS
- 3. Amazon EC2 elastic-IPの問題
- 4. ローダーの断片化 - 断片の漏れはありますか?
- 5. map-reduceの入力ファイル形式
- 6. map()に問題があります
- 7. Elastic Map ReduceでPigで分散キャッシュを使用する
- 8. アンドロイドの断片の出力がありません。
- 9. Apolloでgraphqlの断片を使うのに問題がある
- 10. Amazon Elastic Map Reduceはインスタンスごとに1つまたは複数のマッパープロセスを実行しますか?
- 11. Dataflow Mapのサイド入力の問題
- 12. .NETを使用してAmazon Elastic MapReduceのmap/reduceジョブを記述することはできますか?
- 13. 実行時エラー、入力の問題がありますか?
- 14. Azure Elastic Scale:MarkMappingOfflineは断片の検索を妨げません。
- 15. 同じ領域に複数の断片がありますか?
- 16. pagelaodの入力フィールドにjQueryの問題があります
- 17. mongodbユーザープロフィール入力の追加に問題があります
- 18. cmdの入力に問題があります
- 19. Amazon Elastic Load Balancer(ELB)の不具合はありますか?
- 20. Mongodb map reduce対Apache Spark map reduce
- 21. 私はユーザー入力に問題があります
- 22. 入力マスクに問題があります。javascript RegEx
- 23. 入力ボックスに入力したり問題をクリックしたりする問題がある[反応する]
- 24. Recyclerviewがビューページ内の断片にあります
- 25. Amazon S3Client.listObjects()に大きなs3bucketの問題があります
- 26. CouchDB:Erlangのmap-reduce
- 27. Amazon Elastic MapReduce - SIGTERM
- 28. map reduceプログラムによる2つのノード間の断片化データの処理方法
- 29. コマンドラインアプリケーションの入力に問題がある
- 30. Amazon Elastic MapReduceに複数のファイルが入力されています
分割は改行に基づいています。 –
ストリームAPIとのスプリットフィットがどういうわけか... –
スプリットサイズは、mapred.max.split.sizeに関して、行ではなくバイトに基づいています。 NLineInputFormatを使用している場合は、mapred.line.input.format.linespermapを使用して行数で「分割」を指定できます。詳細はhttp://www.scribd.com/doc/23046928/Hadoop-Performance-Tuningを参照してください。 –