2017-01-17 10 views

答えて

0

あなたは正しいと思っています。 HadoopRDD Hadoopに格納されたデータを読み込むためのコア機能を提供するRDD(HDFS、HBaseのソース *など)。 HadoopPartitionを使用しています。 HadoopRDDが計算されている場合、あなたがInput split:

例のログを見ることができます:INFO HadoopRDD: Input split: file:/Users/jacek/dev/oss/spark/README.md:0+1784

プロパティは、パーティションの実行時に設定されています。このタスクの試みmapred.tip.id

  • タスクの試みのidの

    1. タスクIDをmapred.task.id
    2. mapred.task.is.maptrue
    3. mapred.task.partitionスプリットID
    4. mapred.job.id

    checkpoint()が呼び出されたときに、このHadoopRDDは何もしない傾けます。

    HadoopRDD.scalaのコメントセクションがあり、すべてのプロパティがわかりやすいです。

  • +0

    OK、このAPIの素晴らしい情報です。ありがとうございます。あなたが提供したソースコードを読んだとき、私は別の質問を見つけました。中間結果はどこに保存されましたか?中間結果は、ハープ・パーティションを作成するプロセスを実行するときに、最初にmapreduceを実行し、次にパーティションを生成する関数をコールするため、mapreduce(中間結果)の結果が格納されます。メモリに?ディスクに?ありがとう。 – user7428330

    +0

    中間シャッフル出力はディスクに書き込まれますが、明示的にfsyncされていないため、 がOSバッファ・キャッシュにヒットすることがよくあります。シャッフルの動作は、基本RDDがキャッシュにあるのかディスクにあるのかに関係なく、 です。 HadoopRDDはまた、基本的なRDD原則を使用します。 APIをチェックし、その下に実装されている場所を見つけることができます。 –

    +0

    非常に参考になりました、多くのありがとうございます。 – user7428330

    0

    新しいHadoop RDDは、新しいMapReduce API(org.apache.hadoop.mapreduce)を使用して、Hadoopに格納されたデータ(HDFSのファイル、HBaseのソース、またはS3)を読み込むためのコア機能を提供します。またinputsplitsなど、パーティションに関する構成の詳細を見つけるための様々な他の方法を提供

    あなたは、これはあなたのクエリを解決するより詳細な概要 https://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/rdd/NewHadoopRDD.html

    希望のドキュメントを訪問することができ

    関連する問題