2017-08-24 2 views
0

hadoopを使用してghtorrent APIによって提供されるGitHubデータを照会しようとしています。このように多くのデータ(4〜5 TB)をHDFSに注入するにはどうすればよいですか?また、そのデータベースはリアルタイムです。ブタ、ハイブ、hbaseなどのツールを使用してハープープのリアルタイムデータを処理することは可能ですか?Hadoopを使用してgithubデータを照会

答えて

1

thisプレゼンテーションMySqlまたはMongoDbインスタンスに接続してデータを取得する方法について説明しました。基本的にあなたの公開鍵を共有する必要があります、彼らは彼らのリポジトリにその鍵を追加し、あなたはsshすることができます。別の方法として、あなたがthisリンク

インプリンクから自分の定期的なダンプをダウンロードすることができます:リアルタイムのデータを処理するための

、あなたは何canntその豚、ハイブをuisng 。それらはバッチ処理ツールです。 Apache Sparkの使用を検討してください。

関連する問題