scrapy

    1

    2答えて

    私は最近、スクラピーで作業を始めました。私はいくつかのページ(約50)に分割された大きなリストからいくつかの情報を収集しようとしています。 start_urlsの最初のページを含む最初のページから、私が望むものを簡単に抽出できます。しかし、私はこれらの50ページにすべてのリンクをこのリストに追加したくありません。私はよりダイナミックな方法が必要です。誰かが私が繰り返しどのようにWebページを擦るこ

    3

    3答えて

    私はチュートリアルを再現しようと試みたので、私はPythonとScrapyの完全な初心者です。私はチュートリアルに従ってwww.dmoz.orgのウェブサイトを削り取ろうとしています。 私は from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from dmoz.items im

    12

    1答えて

    私は(異なる情報が抽​​出された)、私はアイテムを持っている各サイトのために、異なるサイトをクロールするscrapyを使用しています まあは、例えば、私は、一般的なパイプラインを持っている(情報のほとんどが同じである)が、今、私はクロールしていますいくつかのGoogleの検索応答とパイプラインは異なる必要があります。例えば : GenericItemはGenericPipeline を使用していま

    9

    4答えて

    私はSgmlLinkExtractorを動作させようとしています。 これは署名です:私はちょうどのでallow=() を使用しています SgmlLinkExtractor(allow=(), deny=(), allow_domains=(), deny_domains=(), restrict_xpaths(), tags=('a', 'area'), attrs=('href'), canon

    10

    1答えて

    Scrapyのドキュメントでthis spider exampleを見てください。説明は次のとおりです このスパイダーは、example.comのホームページをクロールし、カテゴリリンクを収集し、後者をparse_itemメソッドで解析します。各アイテムのレスポンスでは、XPathを使用してHTMLからいくつかのデータが抽出され、アイテムがそのアイテムで満たされます。 同じスパイダーを正確にコピー

    3

    1答えて

    大文字と小文字を区別せずにキーワード 'keyword'を含む値をname属性に持つメタタグと一致させようとしているXPathがあります。 「私はScrapyを使用していたXPath 'descendant::meta[contains(lower-case(@name), "keyword")]/@content' と <meta name="KEYWORDS"> <meta name="

    4

    2答えて

    ウェブクロールで新しいです。私は、クローラはそのRapidshareのリンクが見つかったURLを含むRapidshareのリンクを保存した検索エンジンを構築するつもりだ...つまり は、私はいくつかの後filestube.com に似たウェブサイトを構築するつもりです検索すると、ScrapyがDjangoで動作することがわかりました。私はそのために、特にクローラ

    0

    2答えて

    HtmlXPathSelector経由でページから何かを抽出するためにURLを取得する何かの中に私のスパイダーを入れるにはどうすればいいですか?しかし、URLは、コード内の文字列として提供するものであり、後続するリンクではありません。 私はこのような何か試してみました:= [Failure instance: Traceback: <type 'exceptions.AttributeError'

    4

    1答えて

    私はまだPythonの新人です。だから私はこの質問がうまくいかないことを願っています。 より多くの私は、Webスクレイピングソリューションのためのgoogle、より混乱し、私は(多くの木を調査にもかかわらず、森を見ることができない。)となっ 私は(プロジェクトの数、などの上のドキュメントを読んでいますしかし、私はクロールしようとしている特定のページ(WWWがあり .. spynner機械化が、私は