2016-05-17 17 views
6

私はscrapyフレームワークを初めて使いました。私はLinkExtractorsSgmlLinkExtractorを使っていくつかのチュートリアルを見てきました。私は両者の差異/賛否両論を探してみましたが、結果は満足のいくものではありませんでした。LinkExtractorとSgmlLinkExtractorの相違点

誰かに私に両方の違いを教えてもらえますか?上記抽出器はいつ使用する必要がありますか?

ありがとうございます!

答えて

9

SgmlLinkExtractorの参照先が見つからないという問題は、現在が非難されています(関連changeset)です。あなたはSgmlLinkExtractorの定義hereをScrapy 0.24のドキュメントの中に見つけることができます。

そして、SgmlLinkExtractorをもう使用しないでください。 - Scrapyは、LinkExtractorエイリアスが指し示す1つのリンク抽出器 - LxmlLinkExtractor - を残します。

+1

「SgmlLinkExtractor」は、['sgmllib.SGMLParser'](https://docs.python.org/2/library/sgmllib.html)に基づいています(' sgml'モジュールはPython 2.6以来廃止されていますPython3では利用できません)、デフォルトの 'LinkExtractor'は' lxml'の上に実装されています。これはやや速く、よく管理されています。 –

関連する問題