2011-12-05 9 views
2

私は特定のパスでウェブサイトを横断し、そこから情報を抽出する必要があります。以下は、高レベルのアクションです。誰かが私は、Webクローラーが必要か、私はHttpClientをまたはJDKの組み込み機能を使用して、この流れをコード化したほうが良いよなら、私に知らせることができた場合に感謝しています。特定のリンク上のフォーム(HTTPへの遷移(複数可))を使用して、ウェブサイト は、認証されたWebサイトの特定のパスを通過します。 Webクローラーまたは標準のHttpClient?

  • ログインへ

    1. ゴー
    2. クリック(トランジションバックでhttp)
    3. フォームデータを入力し、をクリック検索ボタン
    4. ウェブサイトでは、各検索結果にリンクしている
    5. から
    6. 抽出データを一度に検索結果1ページ
    7. クリックを返します。
    8. すべての検索結果が読み取られるまで、手順6と7を実行します。
  • +0

    これはクローラで行うことができます。私はJavaに慣れていないので、perlですが、HttpClientでその一部を実行できるように見えます – perlsufi

    答えて

    0

    これは古い質問ですが、それを行う既存のWebクローラーを探している人は、Norconex HTTP Collectorがフォームベースの認証をサポートするWebクローラーであることがわかります。ログインフォームのURLに加えて、開始URLを指定することができます。それはあなたがログインするとあなたの期待どおりにあなたのサイト/ URLをクロールします。それはあなたの基準(正規表現のパターン、最大URL、最大深度など)に一致するものだけをすべてのリンクに従うでしょう。これは、さまざまな検索エンジン(Solr、Elasticsearch、Autonomy IDOLなど)と統合することも、クロールされたドキュメントの処理方法を自分で定義することもできます。

    関連する問題