SparkのAPI newHadoopRDDは本当に何をしていますか？

私は内部的にMapReduceを使ってHadoopからの入力を得ることを知っていますが、詳細を説明できるのは誰ですか？おかげさまで SparkのAPI newHadoopRDDは本当に何をしていますか？

2017-01-17 user7428330

あなたは正しいと思っています。 HadoopRDD Hadoopに格納されたデータを読み込むためのコア機能を提供するRDD（HDFS、HBaseのソース *など）。 HadoopPartitionを使用しています。 HadoopRDDが計算されている場合、あなたがInput split:

例のログを見ることができます：INFO HadoopRDD: Input split: file:/Users/jacek/dev/oss/spark/README.md:0+1784

プロパティは、パーティションの実行時に設定されています。このタスクの試みmapred.tip.id

タスクの試みのidの

タスクIDをmapred.task.id
mapred.task.is.maptrue
mapred.task.partitionスプリットID
mapred.job.id

checkpoint()が呼び出されたときに、このHadoopRDDは何もしない傾けます。

HadoopRDD.scalaのコメントセクションがあり、すべてのプロパティがわかりやすいです。

出典

2017-01-17 04:47:18

OK、このAPIの素晴らしい情報です。ありがとうございます。あなたが提供したソースコードを読んだとき、私は別の質問を見つけました。中間結果はどこに保存されましたか？中間結果は、ハープ・パーティションを作成するプロセスを実行するときに、最初にmapreduceを実行し、次にパーティションを生成する関数をコールするため、mapreduce（中間結果）の結果が格納されます。メモリに？ディスクに？ありがとう。 – user7428330

中間シャッフル出力はディスクに書き込まれますが、明示的にfsyncされていないため、がOSバッファ・キャッシュにヒットすることがよくあります。シャッフルの動作は、基本RDDがキャッシュにあるのかディスクにあるのかに関係なく、です。 HadoopRDDはまた、基本的なRDD原則を使用します。 APIをチェックし、その下に実装されている場所を見つけることができます。 –

非常に参考になりました、多くのありがとうございます。 – user7428330

新しいHadoop RDDは、新しいMapReduce API（org.apache.hadoop.mapreduce）を使用して、Hadoopに格納されたデータ（HDFSのファイル、HBaseのソース、またはS3）を読み込むためのコア機能を提供します。またinputsplitsなど、パーティションに関する構成の詳細を見つけるための様々な他の方法を提供

あなたは、これはあなたのクエリを解決するより詳細な概要 https://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/rdd/NewHadoopRDD.html

希望のドキュメントを訪問することができ

出典

2017-01-17 04:49:17

SparkのAPI newHadoopRDDは本当に何をしていますか？

答えて

関連する問題