Twitter - Hadoopデータストリーミング

オフライン解析のためにTwitter（ツイート）をHDFSにどのように取得するのですか？つぶやきを分析する必要があります。Twitter - Hadoopデータストリーミング

出典

2012-02-07 Kartik Ramalingam

これは問題の解決方法です。

ツールは、Twitterのつぶやき
Create PDF, DOC, XML and other docs from Twitter tweets
任意の形式でTweets to CSV files

キャプチャそれが

HDFSに入れてください。

出典

2012-02-07 12:29:30 Debaditya

私は、タスクがやや似ているので、よく発達したストリームログのハングアウトログを解決する方法を探しています。
そうする2つの既存のシステムがあります。
水路：https://github.com/cloudera/flume/wiki
そして
スクリーブ：https://github.com/facebook/scribe

だからあなたのタスクは、唯一のさえずりからデータを取得することになり、私はasumeすると、この問題の一部ではなく、これらのシステムの1つにこのログを供給します。

出典

2012-02-07 15:27:34

FluentdログコレクタはWebHDFSプラグインをリリースしました。このプラグインにより、ユーザーは即座にデータをHDFSにストリームすることができます。 fluent-plugin-twitterを使用しても

enter image description here

Fluentd + Hadoop: Instant Big Data Collection

、あなたはそのAPIを呼び出すことによって、Twitterのストリームを収集することができます。もちろん、Fluentdにストリームを投稿するカスタムコレクタを作成することもできます。 Fluentdに対してログを投稿するRubyの例を以下に示します。

Fluentd: Data Import from Ruby Applications

出典

2012-11-17 05:00:01

Twitter - Hadoopデータストリーミング

答えて

関連する問題