私のコンピュータには270MBのデータセット(10000個のhtmlファイル)があります。 Scrapyを使用してこのデータセットをローカルでクロールできますか?どうやって?オフライン(ローカル)データのPython Scrapy
13
A
答えて
29
SimpleHTTP Serverは、あなたが本当にそれをローカルにホストし、scrapyを使用したい場合、あなたはそれが中に保存されているディレクトリに移動し、それに仕え、SimpleHTTPServer(下記に示すポート8000)を実行することができ
をホスティング:
python -m SimpleHTTPServer 8000
それからちょうど127.0.0.1:8000
$ scrapy crawl 127.0.0.1:8000
ファイルでscrapyポイント://
あなたはscrapyだけのクローラを実行し、( example dirbotを参照)のためにあなたのスクレーパーを設定したらのまとめ
$ scrapy crawl file:///home/sagi/html_files # Assuming you're on a *nix system
:
代替だけで直接ファイルのセットにscrapyポイントを持っていることです。 htmlファイル内のリンクはしかし、絶対ではなく相対的なものである場合
$ scrapy crawl 127.0.0.1:8000
、これらがうまく動作しない場合があります。自分でファイルを調整する必要があります。
10
は、あなたのデータセットフォルダに移動します:
import os
files = os.listdir(os.getcwd())
for file in files:
with open(file,"r") as f:
page_content = f.read()
#do here watever you want to do with page_content. I guess parsing with lxml or Beautiful soup.
Scrapyのために行くする必要はありませんが!
関連する問題
- 1. ReCaptchaオフライン/ローカル用法
- 2. オフライン(スウィフト)のローカル通知
- 3. (Python、Scrapy)txtファイルからScrapyスパイダーにデータを取り込む
- 4. PythonのScrapyと
- 5. オフライン開発のためのローカルURLフォールバック
- 6. openwrapオフラインまたはローカルのみのモード
- 7. Python 3.5のScrapy 1.2.0
- 8. python scrapy ignoring start_url
- 9. Python Scrapy extract_first()documentation
- 10. Python/Scrapy - Unicodeデコードエラー
- 11. PythonクリックイベントのPlotly(オフライン)
- 12. コードワードPython TDDオフライン
- 13. MySQLdb-python == 1.2.5 Scrapinghub(Scrapy)Python 2.7
- 14. Cognitoをローカルで使用する[オフライン]
- 15. Python/Scrapy/Selenium/PhantomJs - パフォーマンス
- 16. Scrapy(python)TypeError:unhashable type: 'list'
- 17. PythonのScrapyエンコードの問題
- 18. Python Scrapy:リンクをたどり、javascriptテーブルからデータを抽出
- 19. Python ScrapyでFactivaデータをクロールする方法は?
- 20. Python scrapy - ログイン認証問題
- 21. Python scrapy xpath戻り配列
- 22. Scrapy:データを保存する
- 23. Scrapy URLにデータを投稿
- 24. Firebase PWA - オフラインCUDデータ同期
- 25. Scrapyのすべてのスパイダーをローカルで実行する
- 26. Azureのオフライン同期APIでのローカル同期ストアの初期化
- 27. Scrapyのstartprojectのエラー - OSX 10.8でPython
- 28. CSVのヘッダーとしてのPython Scrapyプリントアイテムキー
- 29. Python scrapy working(時間の半分のみ)
- 30. Pythonのscrapyパッケージを使用したデータクロール
あなたは自分にボーナスを与えても、あなたに帽子を渡すことはできません。 :-P –
@MartijnPieters私はいくつかの奨励金を出しています。ハッピーホリデー!あるレベルでは、質問者が回答を受け入れることを望んでいました。 : -/ –
あなたの答えは確かに少なくとも*いくつかのフィードバックに値するに十分な徹底的です、確かに! –