0
MapReduceアーキテクチャを使用してHadoopフレームワークに基づくJavaクローラを実装し、HBaseにコンテンツを挿入したいと考えています。 私はこの2つのチュートリアルを結合しよう:Hadoop MapReduceベースのWeb Javaクローラ
しかし、私は概念を理解することはできません。ページからリンクを抽出するロジックを置く場所はどこですか?マッパーの入力データ型は何ですか? ありがとうございます
基本的な考え方は、マッパークラスのリンクを抽出するためのロジックを置くことです。マッパーの入力データは、処理したいURLのリストになります。 – Luk