scrapy

1熱

2答えて

私は最近、スクラピーで作業を始めました。私はいくつかのページ（約50）に分割された大きなリストからいくつかの情報を収集しようとしています。 start_urlsの最初のページを含む最初のページから、私が望むものを簡単に抽出できます。しかし、私はこれらの50ページにすべてのリンクをこのリストに追加したくありません。私はよりダイナミックな方法が必要です。誰かが私が繰り返しどのようにWebページを擦るこ

3熱

3答えて

スクリーニング初心者の質問 - チュートリアルファイルが動作しない

私はチュートリアルを再現しようと試みたので、私はPythonとScrapyの完全な初心者です。私はチュートリアルに従ってwww.dmoz.orgのウェブサイトを削り取ろうとしています。私は from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from dmoz.items im

12熱

1答えて

Python Scrapy、アイテムのパイプラインを定義する方法は？

私は（異なる情報が抽出された）、私はアイテムを持っている各サイトのために、異なるサイトをクロールするscrapyを使用していますまあは、例えば、私は、一般的なパイプラインを持っている（情報のほとんどが同じである）が、今、私はクロールしていますいくつかのGoogleの検索応答とパイプラインは異なる必要があります。例えば： GenericItemはGenericPipeline を使用していま

9熱

4答えて

治療SgmlLinkExtractorの質問

私はSgmlLinkExtractorを動作させようとしています。これは署名です：私はちょうどのでallow=() を使用しています SgmlLinkExtractor(allow=(), deny=(), allow_domains=(), deny_domains=(), restrict_xpaths(), tags=('a', 'area'), attrs=('href'), canon

10熱

1答えて

治療SgmlLinkExtractorが許可されているリンクを無視しています

Scrapyのドキュメントでthis spider exampleを見てください。説明は次のとおりですこのスパイダーは、example.comのホームページをクロールし、カテゴリリンクを収集し、後者をparse_itemメソッドで解析します。各アイテムのレスポンスでは、XPathを使用してHTMLからいくつかのデータが抽出され、アイテムがそのアイテムで満たされます。同じスパイダーを正確にコピー

3熱

1答えて

XPathで大文字と小文字を区別しない値を一致させる方法

大文字と小文字を区別せずにキーワード 'keyword'を含む値をname属性に持つメタタグと一致させようとしているXPathがあります。「私はScrapyを使用していたXPath 'descendant::meta[contains(lower-case(@name), "keyword")]/@content' と <meta name="KEYWORDS"> <meta name="

4熱

2答えて

Djangoを使用して検索エンジンを構築するための提案

ウェブクロールで新しいです。私は、クローラはそのRapidshareのリンクが見つかったURLを含むRapidshareのリンクを保存した検索エンジンを構築するつもりだ...つまりは、私はいくつかの後filestube.com に似たウェブサイトを構築するつもりです検索すると、ScrapyがDjangoで動作することがわかりました。私はそのために、特にクローラ

0熱

2答えて

python-scrapy：スパイダーの内部でURLを取得するにはどうすればいいですか？

HtmlXPathSelector経由でページから何かを抽出するためにURLを取得する何かの中に私のスパイダーを入れるにはどうすればいいですか？しかし、URLは、コード内の文字列として提供するものであり、後続するリンクではありません。私はこのような何か試してみました：= [Failure instance: Traceback: <type 'exceptions.AttributeError'

4熱

1答えて

Pythonスクラップパッケージに関するガイダンス

私はまだPythonの新人です。だから私はこの質問がうまくいかないことを願っています。より多くの私は、Webスクレイピングソリューションのためのgoogle、より混乱し、私は（多くの木を調査にもかかわらず、森を見ることができない。）となっ私は（プロジェクトの数、などの上のドキュメントを読んでいますしかし、私はクロールしようとしている特定のページ（WWWがあり .. spynner機械化が、私は