Pythonで書かれたオープンソースのWebクローラー(スパイダー/ボット)を作成したいと思います。リンクを見つけて追跡し、メタタグとメタ記述、ウェブページのタイトルとウェブページのURLを収集し、すべてのデータをMySQLデータベースに入れる必要があります。MySQLデータベースを使用したPython Webクローラー
誰でも私を助けるオープンソースのスクリプトを知っていますか?また、誰かが私が何をすべきかについての指針を私に与えることができれば、それらは歓迎する以上のものです。
Pythonで書かれたオープンソースのWebクローラー(スパイダー/ボット)を作成したいと思います。リンクを見つけて追跡し、メタタグとメタ記述、ウェブページのタイトルとウェブページのURLを収集し、すべてのデータをMySQLデータベースに入れる必要があります。MySQLデータベースを使用したPython Webクローラー
誰でも私を助けるオープンソースのスクリプトを知っていますか?また、誰かが私が何をすべきかについての指針を私に与えることができれば、それらは歓迎する以上のものです。
はい私は知っている、
ライブラリ
https://github.com/djay/transmogrify.webcrawler
http://code.google.com/p/harvestman-crawler/
http://code.activestate.com/pypm/orchid/
オープンソースのWebクローラ
チュートリアル
http://www.example-code.com/python/pythonspider.asp
あなたは私はあなたを与えたライブラリを使用してのpythonをインポートすることができたい場合は、通常のPythonのいずれかのようsqlitまたはpostgre SQLを使用しているため、彼らはMySQLを使用している場合、私は知りませんPS -mysqlモジュールとそれを行う:D
Scrappyは、選択したデータをデータベースに挿入するために拡張できるWebクロールおよびスクラップリングフレームワークです。
これはDjangoフレームワークの逆です。