私は小さなファイルをhdfsに結合しようとしています。これは単に歴史的な目的のためであり、必要に応じて大きなファイルが逆アセンブルされ、hadoopテーブルのデータを作成するプロセスが実行されます。これを簡単に達成する方法はありますか?たとえば、1日目は100個の小さなファイルを受け取り、ファイルに結合し、2日目に先に作成したファイルにさらに2つのファイルを追加/追加します。小さなファイルhadoop
答えて
ファイルがすべて「スキーマ」と同じ場合は、 CSVやJSONのように。次に、非常に基本的なPig/Sparkの仕事を書いて小さなファイルのフォルダ全体を読んだり、別の場所に書き込んだりすると、すべてのファイルをHDFSブロックサイズに基づいてより大きなサイズにマージする可能性が非常に高いでしょう。
また、Hiveについても言及しましたので、小さなファイルには外部テーブルを使用し、別のテーブルを作成するにはCTASクエリを使用して、Pigと同じようにMapReduceジョブを作成します。
IMO、可能であれば、最適な解決策は、小さなファイルをより大きなファイルにバッチしてHDFSにダンプする、システムをHadoopの "上流"にセットアップすることです。 Apache NiFiは、この目的に役立つツールです。
私は豚と火花の両方をゴーグルされており、その結果は啓蒙的なものではありませんでした。たとえば、PigがHadoopを使用していて、ファイルを追加するための "推奨された"解決策がないという記事が見つかりました。このアイテムに役立つチュートリアルをご存知ですか? –
HDFSは、ファイルの追加をファーストクラスでサポートしていません。複数のファイルを読み込み、それらを他のファイルに圧縮/マージします。 –
ブタについては、 'STORE'と' LOAD'コマンドだけが必要です。あなたがJava/Pythonのバックグラウンドを持っているなら、Sparkは、より "プログラミングにやさしい"ものです。そして言及したように、Hiveは、あなたが他のものに対して選択肢から 'CREATE TABLE'を使用し、ORCやParquetのような別の形式を使うこともできます –
- 1. Hadoopブロックサイズを最小ブロックサイズより小さく変更する
- 2. Hadoop HDFSにたくさんの小さなファイルを保存するのはなぜですか?
- 3. 異なるhadoop型ファイル
- 4. Hive Merge小さなORCファイル
- 5. Hadoop入力ファイル
- 6. Hadoop for JSONファイル
- 7. Hadoop:小さなファイル用にCombineFileInputFormatを使用するとパフォーマンスが向上しますか?
- 8. hortonworks hadoopのRAMサイズを小さくするエラー
- 9. HadoopプロセスのWARCファイル
- 10. 小さなチャットプログラム、ファイル間のアクセス変数
- 11. 大規模なExcelファイルを小さなファイルに分割する
- 12. Hadoopファイル単位のブロックサイズ
- 13. Hadoop(HDFS) - ファイルのバージョン番号
- 14. hadoop HDFSファイルの更新
- 15. ファイルをHDFS Hadoopにコピー
- 16. Hadoopのファイル名場所
- 17. ファイルをHDFS内の小さなファイルに分割します
- 18. 大量の小さなファイルを解凍したファイル
- 19. ストリーミングデータとHadoop? (Hadoop Streamingではない)
- 20. hadoopクラスタのさまざまなポート?
- 21. タスクが少なくて済むと、Hadoopの縮小が遅くなる
- 22. Ubuntu上のHadoopインストール、HadoopファイルVS HortonworksまたはCloudera
- 23. 小規模な方法 - 小さなsprocs
- 24. 小さなプライベートクラウドソリューション
- 25. 小さなラグボタン
- 26. 小さなファイルで構成されたサウンドファイルを作成する
- 27. 小さなバイナリファイルではなく、小さなASCIIファイルを開くことができますか?
- 28. 大規模なXMLファイルを小さな塊に分割する
- 29. LivyのバッチモードでPythonファイルを送信する(Hadoopがインストールされていない)
- 30. 大きなファイルをPHPで多数の小さなファイルに分割する
「ハープテーブルのために」...あなたはハイヴを意味しますか? HBase? Hadoopには "テーブル"の概念がありません –
はい、ハイブを意味します。 –