2011-12-08 2 views
0

ウェブスクレーパーまたはハーベスターは、ウェブサイトからデータを取り出すソフトウェアです。 市場で入手可能なさまざまなソフトウェアパッケージを提案できれば、大変感謝しています。
彼らはAJAXのようにビルドされたウェブサイトを動的に収穫できる必要があります。ウェブスクレーパーおよびハーベスター

答えて

1

ウェブサッカーは通常、次のページを表示するためにページのハードリンク(href秒)に従っています。 これはajaxでは全く異なっています。コンテンツは、必要に応じてクライアントに送信されます。本当に効率的な方法でパラメータを指定することはできません。このために私自身のツールを使用します。これは、基本的には自分のリクエスタを偽造し、それをサーバーのウェブサービス上で(プラグインして)使用します。 http get/post要求をサポートしていれば、別の言語でこれを行うことができます。

リクエストを偽造する方法を調査するために:

  1. して興味のあるWebサービスと通信して、公開ページにWebKitのブラウザ(私はいくつかのセキュリティポリシー上の理由でSafariを使用してお勧めします)
  2. Go]をインストールします。
  3. 通常のリクエストをする
  4. safariのWeb inspectorを使用して、リクエストを実行したときに[ネットワーク]タブに何があったかを確認します。
  5. ヘッダーには、要求URL(servicePath)と使用された方法が分かります。それがGETなら、それは簡単です:あなたのURLを偽造するためにパラメータを変更するだけです。それがPOSTの場合は、送られたデータをより深く見てから、同様のデータを送信する必要があります。
  6. javascriptを使用して、サーバー上の投稿をテストできます。ここに私のやり方があります:ウェブサイトでjQueryを使ってJavaコンソールがjQueryメソッドを呼び出せるようにします。

$.post("servicePath.php", {"your": "forgedRequest"},function(data){alert(data)})

:あなたは、これは(JSONのポストのためであるここに)あなたの鍛造後に以下の方法を試してみてください(隠されている場合、それを表示させるために型ESC)のWebインスペクタコンソールでブックマークレット jQuerify
  • を追加行うことができます