1
ORCテーブルを作成すると、スピードが飛躍的に向上することがわかります。ただし、ORCテーブルを分割してバケット化することで、さらに改善することはできますか?もしそうなら、既存のORCテーブルでパーティショニングとバケット処理を行う方法は?パーティションとバケットのORCテーブル
ORCテーブルを作成すると、スピードが飛躍的に向上することがわかります。ただし、ORCテーブルを分割してバケット化することで、さらに改善することはできますか?もしそうなら、既存のORCテーブルでパーティショニングとバケット処理を行う方法は?パーティションとバケットのORCテーブル
ORCテーブルをバケット化してパーティション化することができます。
パーティションは、HDFSのディレクトリに直接マップされます。 ALTER TABLEを使用してパーティションを追加できます。あなたはあなたの後でパーティション回復をしなければならないでしょう。 すべてはここでよく説明されています:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-AlterPartition。
個人的に私はダイナミックパーティショニングで新しいテーブルを作成し、そのデータを新しいテーブルにコピーします。
ダイナミックパーティショニングの仕方を詳しく教えてください。 – Seen