2012-04-10 2 views
0

私は、いくつかの開始URLを与えて、すべての要素を抽出し、それらの後ろにあるテキストを抽出するためのWebクローラーを作成しようとしています。 私は、クエリ文字列を与えられたDjangoアプリケーションを実行していて、以前にMySQLデータベースに格納されているすべてのアイテムを返します。 私の考えでは、Scrapyを使うのが一番の選択肢です。ページのすべてのURLを単純に抽出して他のURLを見つけて、それらのページの内容を抽出することに従います。Mysqlと一緒にScrapyを使用するにはどうしたらいいですか?

  1. それは(bacause私はscrapy.org上でこのについての情報を見つけることができませんでした)MySQLの デシベルに、以前に抽出したデータを挿入することは可能ですか?
  2. スキャンの「深さ」を決定する機能が組み込まれていますか?

答えて

1

私はちょうどすべてのscrapyのドキュメントを読むでしょう、これを行うためのより良い方法があるかもしれませんが、アイテムのパイプラインで私はそこにデータを保存しました。各アイテムについて、thaatが処理されているかどうかを確認してください。 http://doc.scrapy.org/en/latest/topics/item-pipeline.html

「深さ」を読み取る場合:DepthMiddlewareを使用してください。あなたはrequest.meta['depth']のような要求オブジェクトからそれを読むことができます。

+2

深みを読み取る方法に関する情報を追加しました。 – DrColossos

+0

ありがとう – Haldir87