2009-04-19 10 views
0

cURLが完全なファイルをダウンロードすることはわかっています。Webクロールとリンク評価

私が本当に望むのは、ページ上のすべてのリンクを取得して、特定の条件、リンクの場所などを評価し、そのページを取得して情報を解析する必要があるかどうかを判断することです。

具体的には、エンターテイメントイベントに関連するリンクを見つけて、そのデータを解析してMySQLデータベースに保存して、自分のエリア内のイベント用のウェブサイトを設定したいと考えています。

どのように達成するための考えがありますか?

-Jason

答えて

2

私はあなたのコード内で、あるいはCURLなどのツールでそれを自分で実装するのではなく、既存のWebクローラ/インデクサソリューションにあなたの努力をベースに提案します。

たとえば、Luceneを参照してください。

+0

方法1は、共有サーバー上のGoDaddyでこれを展開していますか? – Toddly

+0

そして、第二に、静的IPを備えたMac miniで? – Toddly

0

ページ上にリンクの列挙が必要な場合は、.NET WebBrowserとDOMを使用してその操作を行うことができます。これのために私のコードを掘り...私はあなたに戻ってきます。

0

プログラミング言語を指定していません。 Apache Droidsは、Javaを使用してカスタマイズしたい場合は、あなたのためのものかもしれません。特定のニーズに合わせてカスタマイズできる最小限のクローラーとして計画されています。

1

他の回答の解決策は興味深いと思いますが、私はちょうどC#/MonoHTML Agility Packと類似した簡単なことをしました。

0

上記のように、言語は言及していませんでした。 Rubyを使用している場合は、これにcobweb gemを使用できます。リンクを見つけないように手動で指示します(デフォルトではすべてのリンクが自動的にクロールされます)。評価する必要があると言われるごとに、各ページでこれを手動で行います。手動でキューに入れることができます這う。

Ruby on Railsはgodaddyの共有ホスティングでサポートされているように見えます。

(ただこれは3年前見た、しかし他の誰かを助けるかもしれない!)