Q

Hadoop MapReduceベースのWeb Javaクローラ

2017-12-19 29 views 0 likes

0

MapReduceアーキテクチャを使用してHadoopフレームワークに基づくJavaクローラを実装し、HBaseにコンテンツを挿入したいと考えています。私はこの2つのチュートリアルを結合しよう：Hadoop MapReduceベースのWeb Javaクローラ

Basic web crawler example

MapReduce tutorial

しかし、私は概念を理解することはできません。ページからリンクを抽出するロジックを置く場所はどこですか？マッパーの入力データ型は何ですか？ありがとうございます

2017-12-19 Aissam Jadli

+1

基本的な考え方は、マッパークラスのリンクを抽出するためのロジックを置くことです。マッパーの入力データは、処理したいURLのリストになります。 – Luk

A

答えて

1

ちょうどApache Nutchを使用してください - それはHadoopに基づいており、必要以上のものがあります。

2017-12-19 15:57:24

+1

ありがとう、私は自分のバージョンを開発する必要があるので宿題です –

関連する問題