2011-07-01 5 views
0

Webクローラ/スパイダを作成して、JavaScriptベースのリンク(ajax)を含むWebページのすべてのリンクを繰り返し取得し、ページ上のすべてのオブジェクトをカタログ化し、サイト階層を維持する。私の質問は次のとおりです。Webクローラ/スパイダがAjaxベースのリンクを取得する

  • (JavaScriptベースのリンクを取得するには)どの言語/技術を改善すべきですか?
  • オープンソースツールはありますか?

おかげ

Brajesh

答えて

0

あなたは、ブラウザを自動化することができます。たとえば、見てくださいhttp://watir.com/

0

検索の巨人はまだ検索巨人が達成していないものです。なぜなら、ajaxリンクは動的であり、コマンドとレスポンスの両方がユーザーの行動によって大きく異なるからです。それはおそらくSEF-AJAX(検索エンジンフレンドリーAJAX)が現在開発されている理由です。これは、ウェブブラウザを訪れたときにウェブアプリケーションとして動作する検索エンジンに対して完全に索引付け可能なウェブサイトを作る技術である。参考までに、このリンクをチェックしてください:http://nixova.com

犯行はありませんが、私はajaxリンクを追跡する方法はありません。それが私の知識が終わる場所です。 :)

0

あなたはPHP、simple_html_domとjavaでそれを行うことができます。 PHPクローラーがローカルマシンまたはWebサーバー上のページをコピーして、Javaアプリケーション(jpaneまたは何か)で開いて、すべてのテキストに焦点を合わせてマークを付け、取得します。データベースに保存するか、保存する場所に送信します。 onclickまたはmouseover属性を持つすべてのタグまたはタグを追跡します。もう一度呼び出すとどうなるか確認してください。ソースhtml(サーバーから返された文書)のサイズまたはmd5ハッシュが異なる場合は、その効果的なリンクを知っていて、それをつかむことができます。私はあなたが私の悪い英語を理解できることを願っています:D

関連する問題