私は、いくつかの開始URLを与えて、すべての要素を抽出し、それらの後ろにあるテキストを抽出するためのWebクローラーを作成しようとしています。 私は、クエリ文字列を与えられたDjangoアプリケーションを実行していて、以前にMySQLデータベースに格納されているすべてのアイテムを返します。 私の考えでは、Scrapyを使うのが一番の選択肢です。ページのすべてのURLを単純に抽出して他のURLを見つけて、それらのページの内容を抽出することに従います。Mysqlと一緒にScrapyを使用するにはどうしたらいいですか?
- それは(bacause私はscrapy.org上でこのについての情報を見つけることができませんでした)MySQLの デシベルに、以前に抽出したデータを挿入することは可能ですか?
- スキャンの「深さ」を決定する機能が組み込まれていますか?
深みを読み取る方法に関する情報を追加しました。 – DrColossos
ありがとう – Haldir87