単一のクローラを使用して複数のドメインからデータをクロールするにはどうすればよいですか。美しいスープを使って単一のサイトをクロールしましたが、一般的なスープを作成する方法を理解できませんでした。シングルクローラを使用して複数のドメインをクロールする方法
-1
A
答えて
0
よくこの質問には欠陥があります。あなたが掻き出したいサイトには、たとえば共通のものが必要です。
from bs4 import BeautifulSoup
from urllib import request
import urllib.request
for counter in range(0,10):
# site = input("Type the name of your website") Python 3+
site = raw_input("Type the name of your website")
# Takes the website you typed and stores it in > site < variable
make_request_to_site = request.urlopen(site).read()
# Makes a request to the site that we stored in a var
soup = BeautifulSoup(make_request_to_site, "html.parser")
# We pass it through BeautifulSoup parser in this case html.parser
# Next we make a loop to find all links in the site that we stored
for link in soup.findAll('a'):
print link['href']
0
前述のように、各サイトにはセレクタ(、など)の独自の設定があります。単一の一般的なクローラーはURLに入り、何を掻き取るのか直感的に理解することはできません。
BeautifulSoupはこのタイプのリクエストには最適ではないかもしれません。 Scrapyは、BS4よりも少し頑強なもう1つのWebクローラーライブラリです。
ここstackoverflowの上の同様の質問:Scrapy approach to scraping multiple URLs
Scrapyドキュメント: https://doc.scrapy.org/en/latest/intro/tutorial.html
関連する問題
- 1. シングルフェイスブックアプリを使用して複数のドメインにログインする方法
- 2. Pythonを使用して特定のドメインのみをクロールする方法はありますか?
- 3. シェルスクリプトを使用してURLをクロールする方法は?
- 4. ruby on railsに複数のドメインを適用する方法
- 5. Box.com - サービスアカウントを使用してすべてのエンタープライズユーザーのボックスファイルをクロールする方法
- 6. JSOUP - JSOUPを使用して「ログインが必要」のページをクロールする方法
- 7. シェルスクリプトを使用して複数のファイルをftpする方法
- 8. jQueryを使用して複数のHTMLをリッスンする方法
- 9. PHPを使用して複数のSimpleXMLをforeachする方法
- 10. pywinautoを使用して複数のファイルをインクリメントする方法
- 11. 複数のパラメータを使用してデータをフィルタリングする方法
- 12. continueを使用して複数の行をスキップする方法
- 13. ViewChildを使用して複数のファイルをアップロードする方法
- 14. xp_cmdshellを使用して複数のファイルをコピーする方法
- 15. JersyでContainerResponseFilterを使用してCORSに複数のドメインを許可する方法。
- 16. JSTLを使用してJSPでドメインを区別する方法
- 17. Spring RequestMappingを使用してドメインを区別する方法
- 18. Pythonでマルチプロセッシングを使用してScrapyを使用して何百万ものURLをクロールする方法は?
- 19. PHPを使用してリンクをクロールする方法はありますか?
- 20. htaccessを使用してURLにドメイン名の後に複数のスラッシュを付ける方法は?
- 21. DjangoRestFrameworkを使用して複数のモデルにシリアライズする方法
- 22. ボット保護(Distil Networks)を使用してCrunchbaseをクロールする方法は?
- 23. Simple HTML DOM PHPを使用してページをクロールする方法は?
- 24. WAVファイルを周波数ドメインに変換して使用する方法FFTライブラリ
- 25. ジオフェンスを使用して複数のコールバックレベルを避ける方法
- 26. 入手方法LCDSを使用して複数のフィールドを使用する
- 27. ActionListenerで複数のJButtonを使用して.getSource()を使用する方法
- 28. 複数のスレッドを使用してCamel File Component Consumerを使用する方法
- 29. 1台のサーバーに複数のドメインを追加する方法
- 30. 複数のドメイン間でシングルサインインを使用するマルチサイトアプリケーションですか?