Hadoopを使用してgithubデータを照会

hadoopを使用してghtorrent APIによって提供されるGitHubデータを照会しようとしています。このように多くのデータ（4〜5 TB）をHDFSに注入するにはどうすればよいですか？また、そのデータベースはリアルタイムです。ブタ、ハイブ、hbaseなどのツールを使用してハープープのリアルタイムデータを処理することは可能ですか？Hadoopを使用してgithubデータを照会

出典

2017-08-24 Stuti Varshney

thisプレゼンテーションMySqlまたはMongoDbインスタンスに接続してデータを取得する方法について説明しました。基本的にあなたの公開鍵を共有する必要があります、彼らは彼らのリポジトリにその鍵を追加し、あなたはsshすることができます。別の方法として、あなたがthisリンク

インプリンクから自分の定期的なダンプをダウンロードすることができます：リアルタイムのデータを処理するための

、あなたは何canntその豚、ハイブをuisng 。それらはバッチ処理ツールです。 Apache Sparkの使用を検討してください。

出典

2017-08-25 04:09:47 OneUser

Hadoopを使用してgithubデータを照会

答えて

関連する問題