ドメイン内のすべてのWebページとサブドメインを検索する方法を探しています。たとえば、uoregon.eduドメインでは、このドメインとすべてのサブドメイン(例:cs.uoregon.edu)のすべてのWebページを検索したいと考えています。ドメインとそのサブドメイン内のすべてのWebページを見つける
私はナッチを見てきました。私はそれが仕事をすることができると思います。しかし、それはナッチがウェブページ全体をダウンロードし、後の検索のためにそれらを索引付けするようだ。しかし、同じドメインに属するURLのWebページのみをスキャンするクローラが必要です。さらに、nutchはlinkdbをシリアライズされた形式で保存するようです。どのように私はそれを読むことができますか?私はsolrを試して、nutchの収集データを読むことができます。しかし、私は何も検索を実行していないので、私はsolrが必要だと思いません。私が必要とするのは、特定のドメインに属するURLだけです。
おかげ
あなたはhttp://www.crawlmysite.inを使用することができます – Tushar