ハイブテーブルをBigQueryに移行するためのデータパイプラインを設計しようとしています。 Hiveは、前提クラスター上のHadoopで実行されています。各テーブルsource_hive_table {ハイブテーブルをGoogle BigQueryに移行する
- INSERT上書きテーブル
target_avro_hive_table
SELECT * FROM source_hive_table;
- 移動グーグルへの結果のアブロファイル用
:これはそれだけでシェルスクリプトで、私の現在の設計は、実際に、それは非常に簡単です
distcp
- を使用してクラウドストレージは、最初BQテーブルを作成します。
bq load --source_format=AVRO your_dataset.something something.avro
- はこれだけ書かれたテーブルから選択し、手動で取り扱い、BigQueryの自体から任意の鋳造の問題を扱いますY鋳造
}
は、あなたはそれが理にかなっていると思いますか? Sparkを使って、もっと良い方法がありますか? キャストの処理方法が不安です。BigQueryテーブルを2回作成することは避けてください。
他のDBからBigQueryに移行するには、エクスポートする(CSVなど)、GCSにアップロードしてインポートするのが最も簡単で簡単な方法です。完了しました。 –