この場所ではまっすぐな回答は見つかりませんでした。以前はWebサービスの背後にあるMySQLテーブルにあったいくつかの大きなテーブルに入ってくるデータセットに参加しています。私はテーブルをHadoopのフラットCSVファイルにダンプし、Pigを使用して着信データセットとテーブルファイルをロードし、ジョインを実行しています。ブタのHiveまたはフラットファイルから読みやすくするには?
参加するテーブルファイルがいくつかあり、ファイル自体が非常に大きいため、処理が遅くなります。私はちょうどLEFT OUTER
のために行くつもりは、単一のフィールドに、何も空想。
私の質問は、HiveテーブルにCSVファイルを読み込んで、CSVファイルを読み込むのではなく、Pig内でHCatLoaderを使用することで、パフォーマンス上の利点はありますか? HiveはクエリテーブルとSQLのようなインターフェイス以外の利点を提供しているようには思えません。これは、データセット全体にいつ参加するかは関係ありません。
ハイブにデータを読み込んでそこですべての作業を行うのはなぜですか? –
ローディングがボトルネックになっていませんか?外部結合は、より可能性の高い候補のように見えます。 – gobrewers14
ゴードン、私はそれをすることを許可しないプロジェクトの制約があります。 @GoBrewersジョインは間違いなくボトルネックですが、ローディング部分については不思議です。 – economy