2016-11-14 15 views
0

私は、セレンを使ってさまざまなツイッターアカウントからツイートを収集するhadoopを使ってプロジェクトを行っています。もう1つずつ行うのではなく、収集時間を短縮するためにhadoopを使用して同時に処理したいと思います。これは聞こえますか、それはハープの良い使い方でしょうか?MapReduceジョブのセレンをHadoopに使用していますか?

答えて

0

ツイートのストリームを一定にしてHDFSにロードしたり、ハイブ、ストーム、スパークのいずれかの処理フレームワークを使用してそれらのツイートを理解するためのストリーミングAPIがあります。ツイッターAPIを使用してコードを作成したくない場合は、パッケージ化されたツールが利用できます。Apache NiFiやFlumeを使用してツイートを作成し、HDFSにロードできます。

https://nifi.apache.org/docs/nifi-docs/components/org.apache.nifi.processors.twitter.GetTwitter/

http://blog.cloudera.com/blog/2012/09/analyzing-twitter-data-with-hadoop/

関連する問題