2017-12-19 24 views
0

MapReduceアーキテクチャを使用してHadoopフレームワークに基づくJavaクローラを実装し、HBaseにコンテンツを挿入したいと考えています。 私はこの2つのチュートリアルを結合しよう:Hadoop MapReduceベースのWeb Javaクローラ

Basic web crawler example

MapReduce tutorial

しかし、私は概念を理解することはできません。ページからリンクを抽出するロジックを置く場所はどこですか?マッパーの入力データ型は何ですか? ありがとうございます

+1

基本的な考え方は、マッパークラスのリンクを抽出するためのロジックを置くことです。マッパーの入力データは、処理したいURLのリストになります。 – Luk

答えて

1

ちょうどApache Nutchを使用してください - それはHadoopに基づいており、必要以上のものがあります。

+1

ありがとう、私は自分のバージョンを開発する必要があるので宿題です –

関連する問題