2013-10-15 5 views

答えて

29

SimpleHTTP Serverは、あなたが本当にそれをローカルにホストし、scrapyを使用したい場合、あなたはそれが中に保存されているディレクトリに移動し、それに仕え、SimpleHTTPServer(下記に示すポート8000​​)を実行することができ

をホスティング:

python -m SimpleHTTPServer 8000 

それからちょうど127.0.0.1:8000

$ scrapy crawl 127.0.0.1:8000 

ファイルでscrapyポイント://

あなたはscrapyだけのクローラを実行し、( example dirbotを参照)のためにあなたのスクレーパーを設定したら

のまとめ

$ scrapy crawl file:///home/sagi/html_files # Assuming you're on a *nix system 

代替だけで直接ファイルのセットにscrapyポイントを持っていることです。 htmlファイル内のリンクはしかし、絶対ではなく相対的なものである場合

$ scrapy crawl 127.0.0.1:8000 

、これらがうまく動作しない場合があります。自分でファイルを調整する必要があります。

+1

あなたは自分にボーナスを与えても、あなたに帽子を渡すことはできません。 :-P –

+2

@MartijnPieters私はいくつかの奨励金を出しています。ハッピーホリデー!あるレベルでは、質問者が回答を受け入れることを望んでいました。 : -/ –

+2

あなたの答えは確かに少なくとも*いくつかのフィードバックに値するに十分な徹底的です、確かに! –

10

は、あなたのデータセットフォルダに移動します:

import os 
files = os.listdir(os.getcwd()) 
for file in files: 
    with open(file,"r") as f: 
     page_content = f.read() 
     #do here watever you want to do with page_content. I guess parsing with lxml or Beautiful soup. 

Scrapyのために行くする必要はありませんが!

関連する問題