0
私はhadoopのInputFormat
に相当するものを探しています。しかし、私はHadoopのクラス.java
を持っていません。私の質問は、入力を識別するHadoopの方法を使わずに、これがどのようにして行われるのかということです。 申し訳ありませんが、これは間違った質問ですが、私はHadoop/Sparkの新機能です。 ありがとうファイルを入力に分割する場所をsparkに教えるには?
私はhadoopのInputFormat
に相当するものを探しています。しかし、私はHadoopのクラス.java
を持っていません。私の質問は、入力を識別するHadoopの方法を使わずに、これがどのようにして行われるのかということです。 申し訳ありませんが、これは間違った質問ですが、私はHadoop/Sparkの新機能です。 ありがとうファイルを入力に分割する場所をsparkに教えるには?
私は、MR InputFormat
の場合、(1つのマップまたはMRで処理される)コヒーレントなデータグループを定義するために主に使用されるため、データが小さくなることを前提にしています。したがって、コヒーレントなグループを定義するファイルが大きすぎてメモリに収まらない可能性は低いです。したがって、InputFormat
からデータを読み取り、Sparkの場合はメモリにキャッシュすることができます。後でこのファイルの内容を読んで、イテレータ(Hiveパーティションのデータ部分を識別する)を作成し、このイテレータを使用してデータ部分の動的パスを生成することができます。
ファイルを読み込むためにSparkはHadoopの入力形式に依存します。 –
したがって、カスタムInputFormatの作成は必要なステップですか?もしそうなら、ありがとう、少なくとも今私はどのように継続するのか知っています。どんな〜babysteps〜私がもっと学ぶことができるドキュメンテーション? – divmermarlav
Hadoopのガイドはうまくいくと思います。 –