私のコンピュータには270MBのデータセット（10000個のhtmlファイル）があります。 Scrapyを使用してこのデータセットをローカルでクロールできますか？どうやって？オフライン（ローカル）データのPython Scrapy

2013-10-15 Sagi

SimpleHTTP Serverは、あなたが本当にそれをローカルにホストし、scrapyを使用したい場合、あなたはそれが中に保存されているディレクトリに移動し、それに仕え、SimpleHTTPServer（下記に示すポート8000）を実行することができ

をホスティング：

python -m SimpleHTTPServer 8000

それからちょうど127.0.0.1:8000

$ scrapy crawl 127.0.0.1:8000

ファイルでscrapyポイント：//

あなたはscrapyだけのクローラを実行し、（ example dirbotを参照）のためにあなたのスクレーパーを設定したら

のまとめ

$ scrapy crawl file:///home/sagi/html_files # Assuming you're on a *nix system

：

代替だけで直接ファイルのセットにscrapyポイントを持っていることです。 htmlファイル内のリンクはしかし、絶対ではなく相対的なものである場合

$ scrapy crawl 127.0.0.1:8000

、これらがうまく動作しない場合があります。自分でファイルを調整する必要があります。

出典

2013-10-15 16:16:55

あなたは自分にボーナスを与えても、あなたに帽子を渡すことはできません。 :-P –

@MartijnPieters私はいくつかの奨励金を出しています。ハッピーホリデー！あるレベルでは、質問者が回答を受け入れることを望んでいました。： -/ –

あなたの答えは確かに少なくとも*いくつかのフィードバックに値するに十分な徹底的です、確かに！ –

は、あなたのデータセットフォルダに移動します：

import os 
files = os.listdir(os.getcwd()) 
for file in files: 
    with open(file,"r") as f: 
     page_content = f.read() 
     #do here watever you want to do with page_content. I guess parsing with lxml or Beautiful soup.

Scrapyのために行くする必要はありませんが！

出典

2013-10-15 17:25:03

オフライン（ローカル）データのPython Scrapy

答えて

ファイルでscrapyポイント：//

関連する問題