私は約25-30万行と15列のテーブルを持っています。 これらのほとんどは静的であるか、リアルタイム更新を取得します。 しかし、いくつかの列(3から4)では、hdfsからのデータを1日に1回取得して更新します。つまり、これらの列は1日に1回更新する必要があります。毎日3000万レコードのテーブルで3-4列を更新する最も良い方法
私はhdfsの出力から新しいテーブルを作成してメインテーブルの結合を試みましたが、それは永遠にかかるようです。 バッチ更新をやってみましたが、あまりにも長くかかるようです。
これを行うにはどのような方法が最適ですか?
私は、更新/挿入クエリのパフォーマンスを向上させるために
データを更新する場合は、まず使用しているデータベースを決定し、質問に適切なタグを付けます。無関係のデータベースタグを削除しました。 –
@GordonLinoffがquesionを編集しました。他のリレーショナルDBにタグを付けて、同様の経験を持ち、ポストグルではなく他のrdbmsを使用している人にも入力できるようにしてください。 – Peter
@Peterの問題とその解決策はRDMSに特有の傾向がありますが、他のDBにも役立ちます。 generecソリューションをすべて使用するには、sqlタグを使用します。すべての人にとって「最良の方法」を見つけるのも不可能です。 – Alex