オフライン解析のためにTwitter(ツイート)をHDFSにどのように取得するのですか?つぶやきを分析する必要があります。Twitter - Hadoopデータストリーミング
1
A
答えて
0
これは問題の解決方法です。
ツールは、Twitterのつぶやき
- Create PDF, DOC, XML and other docs from Twitter tweets
- 任意の形式でTweets to CSV files
キャプチャそれが
-
をキャプチャします。 (csv、txt、doc、pdf .....など)
- HDFSに入れてください。
3
私は、タスクがやや似ているので、よく発達したストリームログのハングアウトログを解決する方法を探しています。
そうする2つの既存のシステムがあります。
水路:https://github.com/cloudera/flume/wiki
そして
スクリーブ:https://github.com/facebook/scribe
だからあなたのタスクは、唯一のさえずりからデータを取得することになり、私はasumeすると、この問題の一部ではなく、これらのシステムの1つにこのログを供給します。
1
FluentdログコレクタはWebHDFSプラグインをリリースしました。このプラグインにより、ユーザーは即座にデータをHDFSにストリームすることができます。 fluent-plugin-twitterを使用しても
、あなたはそのAPIを呼び出すことによって、Twitterのストリームを収集することができます。もちろん、Fluentdにストリームを投稿するカスタムコレクタを作成することもできます。 Fluentdに対してログを投稿するRubyの例を以下に示します。
関連する問題
- 1. TwitterからHDFSコマンドへのデータストリーミングが動作しない
- 2. ウェブJavaでデータストリーミングEE
- 3. PHP <---> FLASH永続的な接続(データストリーミング)
- 4. Hadoop API VS. Hadoop Streaming
- 5. mongo-hadoopを使ってPythonにHadoopストリーミング
- 6. Hadoop DistributedCacheは、hadoopジョブでステータス
- 7. Hadoop/Hbase:java.lang.NoClassDefFoundError:org/apache/hadoop/hbase/HBaseConfiguration
- 8. Wxpythonステータスバーを別の* .pyファイルで実行時データストリーミングで更新する方法
- 9. app engine twitter to twitter
- 10. Flume Twitterストリーミングの問題
- 11. ストリーミングデータとHadoop? (Hadoop Streamingではない)
- 12. Hadoop Hadoop 3.0でCopyMergeを行う方法
- 13. hadoopローカルファイルをHadoop SFエラーにコピーする
- 14. Hadoopクラスタアーキテクチャ
- 15. Hadoopシングルノードクラスタ
- 16. Hadoop NameNode
- 17. Hadoop JvmPauseMonitor
- 18. Hadoopの
- 19. Hadoopの
- 20. Hadoop MapReduce
- 21. Hadoopオンデマンド
- 22. Hadoopインストールエラー
- 23. Hadoop、ソケットタイムアウトエラー
- 24. Hadoop DistributedCache
- 25. TwitterクラスのPython twitter APIエラー
- 26. Twitter raw JSON SpringソーシャルTwitter
- 27. Twitter API、データベースからtwitter
- 28. Android twitter tweet twitter share with default
- 29. Twitter Twitterでつぶやく
- 30. Flumeは、Hadoop 2.5のflume-ngを持つTwitterソースのキーワードを処理していません。