Hbaseではなく、HDFSにリアルタイムでデータをダンプすることができます。ストームクローラ - テクノロジースタックとApache Nutch
私はApache Nutchが目的を解決できると聞いていましたが、悲しいことに、必要なテクノロジースタックはかなり古いものです。私はhadoopを2.6から以前のバージョンに、Elasticsearchを1.7/1.4にダウングレードしたくないので、私は暴風クローラに焦点を当てました。
私はHadoop 2.6、Elasticsearch 2.0およびHbase 1.1.3を使用していますので、誰もがストームクローラー0.9を一緒に使用できるかどうか教えてください。
「stormcrawler」というタグをこの質問に追加してみませんか? –
ここに「stormcrawler」というタグはありません。私はそれはまだ1500の評判を持っていないと思います。 – Gagan