2017-09-24 5 views
-2

Hadoopを学ぼうとしています。何百万ものWebページを持つサーバーファームがあります。私はトップ10の最も人気のあるWebページであることを理解する必要はありません。 Hadoopでこれを行う方法は?人気の高いN人気のウェブサイト

答えて

2

基本的なワードカウントの例を見てください。 'word in text'のアイデアを 'url'に置き換えるだけです。

私はちょうど私はすでに、私はしばらく前に書いたライブラリーの例として利用可能githubの上でこのような何かを持って実現:https://github.com/nielsbasjes/logparser/blob/master/examples/apache-hadoop-mapreduce/src/main/java/nl/basjes/hadoop/io/input/Wordcount.java

+0

まあ、これはちょっと私だけHDFS –

+1

へのWebログの摂取部分をスキップ質問に答えた。そしてこの質問の現在の明快さを考えて、私は実際に尋ねられたものに自分自身を限定することを選んだ。 (彼の宿題をする代わりに) –

+0

確かに、あなたは漠然と答えて助けてくれる吸血鬼になっているだけです –

関連する問題