人気の高いN人気のウェブサイト

-2

Hadoopを学ぼうとしています。何百万ものWebページを持つサーバーファームがあります。私はトップ10の最も人気のあるWebページであることを理解する必要はありません。 Hadoopでこれを行う方法は？人気の高いN人気のウェブサイト

2017-09-24 Adam

基本的なワードカウントの例を見てください。 'word in text'のアイデアを 'url'に置き換えるだけです。

私はちょうど私はすでに、私はしばらく前に書いたライブラリーの例として利用可能githubの上でこのような何かを持って実現：https://github.com/nielsbasjes/logparser/blob/master/examples/apache-hadoop-mapreduce/src/main/java/nl/basjes/hadoop/io/input/Wordcount.java

2017-09-24 10:01:21

まあ、これはちょっと私だけHDFS –

へのWebログの摂取部分をスキップ質問に答えた。そしてこの質問の現在の明快さを考えて、私は実際に尋ねられたものに自分自身を限定することを選んだ。（彼の宿題をする代わりに） –

確かに、あなたは漠然と答えて助けてくれる吸血鬼になっているだけです –

答えて