2010-12-06 6 views
3

私はいくつかの事前選出のウェブサイトからいくつかの情報を抽出するためにクローラを作成する必要があります。Googleのアプリケーションエンジンで選択したサイトのWebクローラーを実行していますか?

私はこれがまっすぐ仕事だと知っていますが、これを行うにはGoogleのアプリエンジンを使用することを考えています。

私はこれをNutchに試してもらえますか?

これを実行するにはどのように実行可能ですか?

1)googleインフラストラクチャでクローラをホストしている 2)Nutch + app engine - 可能でしょうか?ただ、nutch docs上かすめる

答えて

4

、私は私はこれがApp Engine上で実行されません疑う作る 「[t]は、彼は完全に基礎となるのHadoopプラットフォームをベースNutchの第二のリリースです」などのコメントを参照してください。 App EngineアプリはPythonまたはJavaサンドボックスで実行されます。

つまり、基本的なクローラをApp Egnineにまとめることができるはずです。基本的な実装では、おそらくurlfetchを使用してページを取得し、オプションでドキュメントリンクの処理リンクに追加のタスクを挿入するtasksを起動する必要があります。 scheduled tasksを使用してクロールをオフにすることができます。

+1

彼は本質的にゼロからクローラを書くだろうか? – simpatico

+0

@simpaticoええ、多かれ少なかれ。 –

関連する問題