2017-08-09 12 views
1

Bigデータが初めてです。 HDFSは構造化されたデータをより多く格納するためのものであり、HBaseは構造化されていないデータを格納するためのものであることを知りました。データを取得してデータウェアハウス(HDFS/HBase)にロードする必要があるREST APIがあります。データはJSON形式です。だから、データをロードする方が良いでしょうか? HDFSまたはHBase?また、これを行うためのチュートリアルを私に指示してください。私はこれについて、Tutorial with Streaming Dataについて調べました。しかし、これが私のユースケースに合うかどうかはわかりません。REST APIからデータを取得し、HDFS/HBaseに保存します。

この問題を解決するために私が特定のリソース/テクノロジに導くことができれば、大きな助けになります。

答えて

1

そこは、あなたが考えなければならないいくつかの質問には約

  1. あなたはバッチファイルやをストリーミングで動作するようにしたいですか?あなたのREST APIが要求されるレートに依存します

  2. ストレージの場合、HDFSとHbaseだけでなく、Casandra、MongoDB、Neo4jなどの多くのソリューションがあります。すべては(ランダムアクセスも VS フルスキャン、 VS 書い新しい行をバージョニングと更新、同時実行アクセス)あなたがそれを使用する方法に依存します。たとえば、Hbaseはランダムアクセスに、Neo4jはグラフストレージに、... JSONファイルを受け取っている場合、MongoDBはオブジェクトをドキュメントとして格納するため、神の選択肢になります。

  3. のデータサイズはですか?ここで

は、あなたがビッグデータプロジェクトdocumentation

を起動したときに考えるように質問に良い記事です