0
spark sessionを使用してデータフレームをハイブテーブルに保存しています。コードは以下の通りです。スパーク2データフレームハイブに保存 - コンパクション
df.write.mode(SaveMode.Append).format("orc").insertInto("table")
データがカフカから発せられます。これは、1日中膨大な量のデータになる可能性があります。データフレームの保存は内部的にハイブ圧縮を行いますか?テーブルの挿入に影響を与えずに定期的な間隔で圧縮を行う最良の方法は何ですか?あなたの例では
データフレームで何をしたいですか? Plsは詳細に説明します。 –
ORC形式のハイブテーブルに保存します。これは上のコードスニペットに示されています –