REST APIからデータを取得し、HDFS/HBaseに保存します。

Bigデータが初めてです。 HDFSは構造化されたデータをより多く格納するためのものであり、HBaseは構造化されていないデータを格納するためのものであることを知りました。データを取得してデータウェアハウス（HDFS/HBase）にロードする必要があるREST APIがあります。データはJSON形式です。だから、データをロードする方が良いでしょうか？ HDFSまたはHBase？また、これを行うためのチュートリアルを私に指示してください。私はこれについて、Tutorial with Streaming Dataについて調べました。しかし、これが私のユースケースに合うかどうかはわかりません。REST APIからデータを取得し、HDFS/HBaseに保存します。

この問題を解決するために私が特定のリソース/テクノロジに導くことができれば、大きな助けになります。

出典

2017-08-09 shockwave

そこは、あなたが考えなければならないいくつかの質問には約

あなたはバッチファイルやをストリーミングで動作するようにしたいですか？あなたのREST APIが要求されるレートに依存します
ストレージの場合、HDFSとHbaseだけでなく、Casandra、MongoDB、Neo4jなどの多くのソリューションがあります。すべては（ランダムアクセスも VS フルスキャン、 VS 書い新しい行をバージョニングと更新、同時実行アクセス）あなたがそれを使用する方法に依存します。たとえば、Hbaseはランダムアクセスに、Neo4jはグラフストレージに、... JSONファイルを受け取っている場合、MongoDBはオブジェクトをドキュメントとして格納するため、神の選択肢になります。

のデータサイズはですか？ここで

は、あなたがビッグデータプロジェクトdocumentation
を起動したときに考えるように質問に良い記事です

出典

2017-08-09 19:35:38 jeanr

REST APIからデータを取得し、HDFS/HBaseに保存します。

答えて

関連する問題