私は内部的にMapReduceを使ってHadoopからの入力を得ることを知っていますが、詳細を説明できるのは誰ですか?おかげさまで SparkのAPI newHadoopRDDは本当に何をしていますか?
0
A
答えて
0
あなたは正しいと思っています。 HadoopRDD
Hadoopに格納されたデータを読み込むためのコア機能を提供するRDD(HDFS、HBaseのソース *など)。 HadoopPartition
を使用しています。 HadoopRDDが計算されている場合、あなたがInput split:
例のログを見ることができます:INFO HadoopRDD: Input split: file:/Users/jacek/dev/oss/spark/README.md:0+1784
プロパティは、パーティションの実行時に設定されています。このタスクの試みmapred.tip.id
- タスクIDを
mapred.task.id
mapred.task.is.map
true
mapred.task.partition
スプリットIDmapred.job.id
checkpoint()
が呼び出されたときに、このHadoopRDD
は何もしない傾けます。
HadoopRDD.scalaのコメントセクションがあり、すべてのプロパティがわかりやすいです。
0
新しいHadoop RDDは、新しいMapReduce API(org.apache.hadoop.mapreduce)を使用して、Hadoopに格納されたデータ(HDFSのファイル、HBaseのソース、またはS3)を読み込むためのコア機能を提供します。またinputsplitsなど、パーティションに関する構成の詳細を見つけるための様々な他の方法を提供
あなたは、これはあなたのクエリを解決するより詳細な概要 https://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/rdd/NewHadoopRDD.html希望のドキュメントを訪問することができ
関連する問題
- 1. Android Studioのクリーンプロジェクトは本当に何をしていますか?
- 2. rbind.fill.matrixは本当に何をしていますか?
- 3. Android claimInterfaceは本当に何をしていますか?
- 4. django querysetは本当に何をしていますか?
- 5. font-sizeは本当に何に対応していますか?
- 6. aは関数なので、 `a.call.call`は本当に何をしていますか?
- 7. initWithNibNameは本当にとにかく何をしていますか?
- 8. ExtJSコンボボックスのtriggerAction: "all"は本当に何をしていますか?
- 9. これらのOSGiコマンドは本当に何をしていますか?
- 10. getMaxSizeはTextAreaについて本当に何を返しますか?
- 11. "dccforecast"の "n.roll"は本当に何をしますか?
- 12. Dockerコマンドの--net = hostオプションは本当に何をしますか?
- 13. CALayerでは境界が本当に何を意味していますか?
- 14. GENERIC_ALLとフォルダ/ファイルACL? GENERIC_ALLは本当に何をしていますか?
- 15. awakeFromNibは本当に何ですか?
- 16. 本当に原子は何ですか?
- 17. EditorReuseAttributeは本当に何ですか?
- 18. NSCalendarのrangeOfUnitとは何ですか?startDate:interval:forDateは本当に何をしていますか?
- 19. Mongoose update()は本当に何を更新しますか?
- 20. data-ajax = "false"は本当に何をしますか?
- 21. terraform refreshは本当に何をしますか?
- 22. getcontextシステムコール(ucontext.h)は本当に何をしますか?
- 23. 本当に使われている `constructor`プロパティは何ですか?
- 24. Sparkのバッキングストアは本当に重要ですか?
- 25. Android Twitter OAuthは本当に動作していますか?
- 26. 私のサービスオブジェクトは本当にエンティティパッケージに属していますか?
- 27. (本当に)ロックしていないファイルを開きますか?
- 28. ネイティブは本当にAndroidフラグメントをサポートしていますか?
- 29. RegAsmは本当に何をしていますか?ファイルはどこにコピーされますか?
- 30. ドッカー - チームにとって本当の価値は何ですか?
OK、このAPIの素晴らしい情報です。ありがとうございます。あなたが提供したソースコードを読んだとき、私は別の質問を見つけました。中間結果はどこに保存されましたか?中間結果は、ハープ・パーティションを作成するプロセスを実行するときに、最初にmapreduceを実行し、次にパーティションを生成する関数をコールするため、mapreduce(中間結果)の結果が格納されます。メモリに?ディスクに?ありがとう。 – user7428330
中間シャッフル出力はディスクに書き込まれますが、明示的にfsyncされていないため、 がOSバッファ・キャッシュにヒットすることがよくあります。シャッフルの動作は、基本RDDがキャッシュにあるのかディスクにあるのかに関係なく、 です。 HadoopRDDはまた、基本的なRDD原則を使用します。 APIをチェックし、その下に実装されている場所を見つけることができます。 –
非常に参考になりました、多くのありがとうございます。 – user7428330