現在作業中のアプリケーションでwebcrawlingを使用する予定です。私はNutchについていくつかの調査を行い、それを使って予備テストを行った。しかし、その後私は虐待に出くわしました。しかし、私はいくつかの予備的な研究を行い、治療についてのドキュメントを調べたところ、私はそれが構造化されたデータだけをキャプチャできることを発見しました(データをキャプチャしたいdiv名を与えなければなりません)。私が開発しているアプリケーションのバックエンドはPythonに基づいており、私はscrapyがPythonに基づいていると理解しています。Scrapy対Nutch
私の必要条件は、1000以上の異なるウェブページからデータを取得し、その情報に関連するキーワードを検索することです。治療が同じ要件を満たす方法はありますか。
1)可能であれば、どのように行うことができるかの例を挙げることができますか?
2)または、Nutchの+ Solrには、あなたのケースで完璧に動作します私の要件
div nameはScrapyの要件ではなく、必要なものをキャプチャできます。 –