2011-08-10 10 views
6

Pythonで書かれたオープンソースのWebクローラー(スパイダー/ボット)を作成したいと思います。リンクを見つけて追跡し、メタタグとメタ記述、ウェブページのタイトルとウェブページのURLを収集し、すべてのデータをMySQLデータベースに入れる必要があります。MySQLデータベースを使用したPython Webクローラー

誰でも私を助けるオープンソースのスクリプトを知っていますか?また、誰かが私が何をすべきかについての指針を私に与えることができれば、それらは歓迎する以上のものです。

答えて

4

はい私は知っている、

ライブラリ

https://github.com/djay/transmogrify.webcrawler

http://code.google.com/p/harvestman-crawler/

http://code.activestate.com/pypm/orchid/

オープンソースのWebクローラ

http://scrapy.org/

チュートリアル

http://www.example-code.com/python/pythonspider.asp

あなたは私はあなたを与えたライブラリを使用してのpythonをインポートすることができたい場合は、通常のPythonのいずれかのようsqlitまたはpostgre SQLを使用しているため、彼らはMySQLを使用している場合、私は知りませんPS -mysqlモジュールとそれを行う:D

http://sourceforge.net/projects/mysql-python/

4

Scrapyを使用することをお勧めします。Twistedlxmlに基づく強力なスクレイピングフレームワークです。これは、実行するタスクの種類に特に適しています。正規表現ベースのルールを使用してリンクをたどり、正規表現やXPath式を使用してHTMLからデータを抽出します。また、「パイプライン」と呼ばれるものを提供し、データを必要なものにダンプします。

Scrapyは組み込みのMySQLパイプラインを提供していませんが、誰かが独自に作成したhereを書いています。

3

Scrappyは、選択したデータをデータベースに挿入するために拡張できるWebクロールおよびスクラップリングフレームワークです。

これはDjangoフレームワークの逆です。

関連する問題