私は、数十億のレコードをリレーショナルデータフォーマット(トランザクションID、ユーザー名、ユーザーIDなど)でフォーマットしています。このデータストア(ユーザーID、日付などのようないくつかのフィルタを提供します)は、通常、エクスポートされたファイルは選択されたフィルタに基づいて数千から数百万のレコードを持ちます(出力ファイルはCSVまたは同様の形式です)大量データのエクスポートのためのnoSQL選択の提案
生データ以外にも、データのエクスポート中にいくつかのフィールドでいくつかの動的集約を探しています。
リクエストを送信したユーザとエクスポートされたデータファイルとの間の一般的な時間は、2〜3分以内でなければなりません(最大で4〜5分)。
私はこれまでHadoop map-reduceを使用していましたが、典型的なHDFSデータマップreduceを使用したhadoopバッチジョブ実行は、私の見解ではSLAが期待できないかもしれません。
もう1つの方法は、これまで使用していないSpark map-reduceを使用することですが、典型的なHadoop map-reduceバッチジョブの方が速いはずです。
すでに生産段階のRDBMS/OLTPインスタンスを試しましたが、エクスポートするデータのサイズと動的集約のために、正しいオプションではないようです。
ここでスパークの使用に関する提案はありますか?または他のどのような優れたnoSQL?
要約SLAでは、ここでは動的集約と生データ(数百万)が考慮されます。