2016-10-10 21 views
2

私のアプリケーションがMongoDBから大部分のデータを処理するMongoDBからデータを抽出することについてです。SqoopでMongoDBからデータを抽出し、HDFSに書き込む?

私はsqoopを使ってデータを抽出し、RDBMSがsqoop経由でHDFSでゲル化することを発見しました。しかし、NoSQL DBからsqoopを使用してデータを抽出し、HDFSでダンプして大量のデータを処理するという明確な方向性はありませんか? あなたの提案や調査をお知らせください。

私はMySQLから静的情報とデータトランザクションを抽出しました。単に、sqoopを使用してHDFSにデータを格納し、データを処理しました。今、私はMongoDBにモデル化されたデータを一日あたり1百万のユニークなemailIDのライブトランザクションを持っています。処理/ ETLのためにmongoDBからHDFSにデータを移動する必要があります。 Sqoopを使ってこの目標を達成するにはどうすればいいですか?私は自分の仕事をスケジュールすることができますが、sqoop経由でmongoDBからデータを取り出す最良の方法は何かを知っています。

2TBサイズの5DNクラスタを検討してください。データサイズは、ピーク時に1GB〜2GBまで変化します。

+0

あなたの質問はすでにとても一般的です。 Mongodb/Cassandraを追加するとそれがさらに増えます。サンプルデータ、データボリューム、クラスタ情報などの詳細を追加します。 –

+0

私はデータを共有することはできませんが、私はデータモデリングの点でサイジングを教えてください – shashankS

+0

人々はあなたのデータを必要としません。人々はユースケースを理解するための情報が必要です。 –

答えて

1

Sqoopは、リレーショナルデータベースからのみデータをインポートするために適用されます。 mongoからHadoopにデータを取得する他の方法もあります。

例:https://docs.mongodb.com/ecosystem/tools/hadoop/

さもないと、あなたがNifiまたはStreamsetsなどの任意のデータフロー管理ツールを使用してリアルタイムでモンゴからデータを取得することができます。

関連する問題