フェーズを縮小したマップジョブでは、出力フォルダに「part-r-00000」のような名前のファイルが含まれていることがわかりました。Hadoop - 削減後に出力ファイルから結果を取得しますか?
これらのファイルをアプリケーションレベルで後処理する必要がある場合は、自然な命名順(part-r-00000、part-r-00001、part-r-00002)で出力フォルダ内のすべてのファイルを反復処理する必要がありますか? ...)仕事の結果を得るために?
または、私はいくつかの "iterator"を取得し、私のためにファイルの切り替えを処理することができるいくつかのhadoopヘルパーファイルリーダーを使用することができます(ファイルpart-r-00000が完全に読み込まれると、 )?
これらのファイルを別のホストに取得し、コンテンツをデータベースに変換/挿入する必要があります。クラスタにはデータベースへのアクセス権がないため、私は減らす段階でその挿入を行うことはできません。 – jdevelop