私はウェブサイトからレビューを掻き集めようとしており、の「詳細を読む」のオプションを掻き集めることはできません。 私はもっと読むまでデータを得ることができます。 私はBeautifulSoupを使用しています。 何か助けていただければ幸いです。BeautifulSoupを使用してウェブページからの詳細を読むにはどうすればいいですか
答えて
セレンで与えられたクリックオプションを使用すると、もっと多くのタグやクラスを見つけてクリックすることができます。すぐにクリックすると表示されます。あなたが必要とするコンテンツをスクラップする必要があることを示しています。
ここでは、すべてのレビューの全文を取得する方法のデモです。それを実行し、結果を得る。実行後しばらく待ちます。これはどのリンクをクリックしなくてもできることです。
import requests ; from bs4 import BeautifulSoup
soup = BeautifulSoup(requests.get("http://www.mouthshut.com/product-reviews/Lakeside-Chalet-Mumbai-reviews-925017044").text, "html.parser")
for title in soup.select("a[id^=ctl00_ctl00_ContentPlaceHolderFooter_ContentPlaceHolderBody_rptreviews_]"):
items = title.get('href')
if items:
broth = BeautifulSoup(requests.get(items).text, "html.parser")
for item in broth.select("div.user-review p.lnhgt"):
print(item.text)
さて、私はこのコードを試してみましたので、最初はウェブサイトをリクエストしてから、 'read more'の代わりにレビューのタイトルのリンクを検索し、リンクをリクエストして 'href'それをブイヨンで保管し、最後にレビューを検索し、その段落をループする(私が間違っていれば私を訂正する)。私を悩ませている2つのこと、タイトルを印刷するときの1つ私は除外された(なぜですか?)、どこから "div.user-review p"を取得したのでしょうか?(私は、そのページのどこにあるのでしょうか?) – user5444075
["div.user-review p"]が見つかる下のページの要素を調べてください。http://www.mouthshut.com/review/Lakeside-Chalet-Mumbai-review-mlmqulpsq btw私は「平和、静かな、そして何のビュー!」から抽出されたリンクを使って二度目のリクエストをしました。 – SIM
また、私はあなたのコードを試して、レビューが2回印刷されている理由を見つけることができませんでした。私はまた、そのページを検査し、冗長性を見つけられなかった。これで私を助けてくれますか? – user5444075
- 1. iniファイルセクションの値とその詳細を読むにはどうすればいいですか?C#
- 2. RingCentral Salesforce:RingCentralサンドボックスユーザーの詳細を使用してアプリにログインするにはどうすればいいですか
- 3. RapidShare APIを使用してアカウントの詳細を取得するにはどうすればよいですか?
- 4. UISplitViewControllerを使用して詳細ビューコントローラでマスタビューコントローラを取得するにはどうすればよいですか?
- 5. Sparkから書かれたPySparkの寄木細工を読むにはどうすればよいですか?
- 6. 詳細ビューからオブジェクトを読み取るにはどうすればよいですか?
- 7. fbtrace_idを使用して詳細を調べるにはどうすればよいですか?
- 8. クラスベースの詳細ビューからインスタンスを取得して返すにはどうすればよいですか?
- 9. BeautifulSoupを使用して単語をスパンで囲むにはどうすればよいですか?
- 10. OpenCVを使用してウェブカメラからビデオを読むにはどうすればよいですか?
- 11. アンドロイドカメラを使用して機械可読パスポート(MRP)を読むにはどうすればいいですか
- 12. を読むにはどうすればいいですか?C#
- 13. リストローダーをAndroidの詳細アクティビティからリロードするにはどうすればいいですか?
- 14. RuntimeExceptionの詳細をEJBクライアントから隠すにはどうすればいいですか?
- 15. ウェブページに.epubを埋め込むにはどうすればいいですか?
- 16. 角度ブートストラップカレンダーのイベントの詳細にカスタムテンプレートを使用するにはどうすればよいですか?
- 17. Android - 同じリストの詳細を含むリストを実装するにはどうすればよいですか?
- 18. WinFormsの詳細を含むメッセージボックスを表示するにはどうすればよいですか?
- 19. OpenCVを使ってPythonのNamedTempFileからビデオを読み込むにはどうすればいいですか?
- 20. コンテナビューを保持しているビューコントローラの保存ボタンから、コンテナビューコントローラの詳細(NSUserDefaultsを使用)を保存するにはどうすればよいですか?
- 21. どのように追加するには、HTML、JavaScriptを使用してページ内の詳細を読む
- 22. 新しいページを読み込むのではなく、ダイアログの詳細を表示するにはどうすればよいですか?
- 23. バッチスクリプトを使用してウェブサイトのコンテンツを読むにはどうすればいいですか?
- 24. webpackでrequireメソッドを使用してhttpリソースを読み込むにはどうすればいいですか
- 25. Webpackを使用してプロジェクトにフォントを読み込むにはどうすればいいですか?
- 26. ローカルテキストファイルを読むにはどうすればよいですか?
- 27. URLSessionTaskMetricsを読むにはどうすればよいですか?
- 28. C++テキストファイルからフレーズを読むにはどうすればよいですか?
- 29. 詳細ページのSharePointリストから自動IDを表示するにはどうすればよいですか?
- 30. アンドロイドエミュレータからコールログの詳細を取得するにはどうすればよいですか?
bs4のクリックオプションとその使い方について教えてください。 – user5444075
@ user5444075私の間違い私はセレンについて話していた... bs4はクリックをサポートしていない。あなたはあなたのコードやあなたがスクラップしようとしているウェブサイトを投稿して誰かが助けることができるようにしてください – Shaamuji
私はリンクを取得しようとしましたが、 "read more"を指していたのはonclick属性のタグです。レビューを拡大するためにそれを使用することはできませんか? – user5444075