2016-09-06 4 views
0

私はhadoopのInputFormatに相当するものを探しています。しかし、私はHadoopのクラス.javaを持っていません。私の質問は、入力を識別するHadoopの方法を使わずに、これがどのようにして行われるのかということです。 申し訳ありませんが、これは間違った質問ですが、私はHadoop/Sparkの新機能です。 ありがとうファイルを入力に分割する場所をsparkに教えるには?

+0

ファイルを読み込むためにSparkはHadoopの入力形式に依存します。 –

+0

したがって、カスタムInputFormatの作成は必要なステップですか?もしそうなら、ありがとう、少なくとも今私はどのように継続するのか知っています。どんな〜babysteps〜私がもっと学ぶことができるドキュメンテーション? – divmermarlav

+1

Hadoopのガイドはうまくいくと思います。 –

答えて

0

私は、MR InputFormatの場合、(1つのマップまたはMRで処理される)コヒーレントなデータグループを定義するために主に使用されるため、データが小さくなることを前提にしています。したがって、コヒーレントなグループを定義するファイルが大きすぎてメモリに収まらない可能性は低いです。したがって、InputFormatからデータを読み取り、Sparkの場合はメモリにキャッシュすることができます。後でこのファイルの内容を読んで、イテレータ(Hiveパーティションのデータ部分を識別する)を作成し、このイテレータを使用してデータ部分の動的パスを生成することができます。

関連する問題