私のアプリケーションがMongoDBから大部分のデータを処理するMongoDBからデータを抽出することについてです。SqoopでMongoDBからデータを抽出し、HDFSに書き込む?
私はsqoopを使ってデータを抽出し、RDBMSがsqoop経由でHDFSでゲル化することを発見しました。しかし、NoSQL DBからsqoopを使用してデータを抽出し、HDFSでダンプして大量のデータを処理するという明確な方向性はありませんか? あなたの提案や調査をお知らせください。
私はMySQLから静的情報とデータトランザクションを抽出しました。単に、sqoopを使用してHDFSにデータを格納し、データを処理しました。今、私はMongoDBにモデル化されたデータを一日あたり1百万のユニークなemailIDのライブトランザクションを持っています。処理/ ETLのためにmongoDBからHDFSにデータを移動する必要があります。 Sqoopを使ってこの目標を達成するにはどうすればいいですか?私は自分の仕事をスケジュールすることができますが、sqoop経由でmongoDBからデータを取り出す最良の方法は何かを知っています。
2TBサイズの5DNクラスタを検討してください。データサイズは、ピーク時に1GB〜2GBまで変化します。
あなたの質問はすでにとても一般的です。 Mongodb/Cassandraを追加するとそれがさらに増えます。サンプルデータ、データボリューム、クラスタ情報などの詳細を追加します。 –
私はデータを共有することはできませんが、私はデータモデリングの点でサイジングを教えてください – shashankS
人々はあなたのデータを必要としません。人々はユースケースを理解するための情報が必要です。 –