ウェブサイトからデータを抽出したい。 URLはhttp://www.example.com/ですだから私はこのURLをstart_urls
に入れました(ドキュメントのDMOZの例を参照)。しかし、文字列を入力してボタンをクリックするとGUIを作成して、その文字列をstart_urls
に追加し、このようにアクセスできるすべてのページを抽出します。http://www.example.com/computer/page-1。どうすればループを使ってこれを行うことができますか?私はstart_urls
にURLをもっと入れてみて、それがうまく動作しているかどうかをチェックしようとしましたが、うまく反応しません。ときには応答が得られないことがあります。それについての考えは?ウェブサイトから複数のウェブページをクロールする
答えて
ループを使用してこれを行う方法は?
友人、それはいくつかのループだろう。真剣に、私は既存のオープンソースのスクリプトとこれを行うアプリケーションを調べることを検討するだろう。あなたは容易にを見ることができ、どのようにそれを行うことができるのか考えているでしょう。もちろん、あなたはどんな感じでも作ることができます、あなたがほしいと思うすべて。私は確かにそこに利用可能なウェブスパイダーソリューションの多くの例があります。私の限られたツールセットでは、おそらく何かのbashやperlスクリプトで制御されたwgetで何かをハッキングしようとしますが、それは私です、そして、多くの人にとって必ずしも有利ではありません。
'タスク'自体については、本当に自分自身でコード化したい場合は、サブタスクで分割することを検討してください。 このタスクを実行するアプリケーションは2つあります。たとえば、あるアプリケーションにリンクを保存させ、もう1つのアプリケーションにスパイダーの「フェッチャー」を持たせることができます。
「ループ」という言葉を考えないでください。プロジェクトのこの段階ではまだループはありません。
Windows用のCygwin/GnuToolsがインストールされている場合、私はwgetがこれを行うためにスクリプト化されている可能性が高いと思っていたように、テキストリンクのリストを見て、css、画像、おそらくjsを取得します。
もちろん、これがすべてコマンドラインからうまくいきましたら、フレンドリーな方法でフロントエンドにアクセスしたいと思うかもしれません。使用している言語/テクノロジスタックによっては、さまざまなオプションがあります。それは私が入り込まない別の話題です。
願わくは、これがうれしい!一言で言えば
は、あなたのニーズに依存などSourceforgeの、gitのハブ、グーグル、上の既存のオープンソースのWebスパイダリングressourcesを検索することができ、Netwoofはあなたのためにそれを行うことができます。リンク、複数のresutlsページなどでループすることができます...それは完全に自動化され、APIを生成し、構造化されたデータの中で壊れていないデータを修飾することさえできます。
- 1. ウェブサイトから複数のウェブページをクロールする
- 2. ウェブサイトから複数のページをクロールする(BeautifulSoup、Requests、Python3)
- 3. Pythonでウェブサイトから複数のページをクロールする
- 4. クロールしているウェブページのリンクされたウェブページからデータをクロールする方法
- 5. ウェブページからのデータをクロールしてコンテンツをjavacriptでレンダリングする
- 6. 制限付きウェブページのクロール
- 7. 詐欺を使用した値リストからウェブサイトをクロールする
- 8. 同じウェブサイトの複数のウェブページからテキストを同期するにはどうすればよいですか?
- 9. ウェブサイト全体のコンテンツをクロールする
- 10. ウェブページ内のJavaScriptコードの一部をクロール
- 11. pythonを使ってウェブサイトをクロールする
- 12. ウェブサイトからウェブページをスクラップするためのスクラピーの再利用
- 13. Scrapy - ウェブサイト全体をクロールする
- 14. 複数のドメインから単一のウェブサイト
- 15. 単一のウェブサイトの複数のページからデータをインポートする
- 16. ウェブページからウェブサイトの一部を削除します。
- 17. 複数のウェブサイトからRSSフィードを取得する方法
- 18. ウェブサイトから複数のページをスクラップする方法は?
- 19. 異なる深さの複数の開始URLをクロールする
- 20. シングルクローラを使用して複数のドメインをクロールする方法
- 21. 複数のtomcatウェブサイトのURLから名前とポートを隠す
- 22. ハイパーリンクを含むウェブページから複数のテーブルを抽出するR
- 23. Scrapy複数のスパイダーを後でクロールする
- 24. 音楽のウェブサイトをクロールして歌詞を取得する
- 25. Scalingを使用してAngularJSベースのウェブサイトをクロールする
- 26. scarrapyを使ってangularjsのウェブサイトをクロールするには?
- 27. Magento複数のウェブサイト
- 28. LAMP複数のウェブサイト
- 29. "#"リンクをScrapyクロールから削除する
- 30. JSONファイルからリンクをクロールする