私は美しいスープがどのようにPythonで動作するかを理解しようとしています。私は過去には美しいスープを使っていましたが、サードパーティ製のライブラリを使わずに特定のWebページからデータを読み取ることができるスクリプトを実装しようとしましたが、xmlモジュールには多くのオプションがなく、 Webページからデータを読み込むための優れたドキュメントを持つ他のライブラリはありますか? 私はこれらのスクリプトを特定のWebサイトで使用していません。私は公開ページやニュースブログから読もうとしています。Pythonでサードパーティのライブラリを使用せずにWebページを掻き取ることは可能ですか?
-1
A
答えて
0
あなたの人生を楽にするために、サードパーティライブラリが存在します。はい、もちろん、あなたはそれらなしでプログラムを書くことができます(図書館の作者はそうしなければなりません)。しかし、なぜ車輪を再発明するのですか?
あなたの最善の選択肢は、美しいとスカッピーです。しかし、もしあなたがbeautifulsoupに問題があるなら、私は不愉快なことはしません。
おそらく、ウェブサイトのプレーンテキストだけで取得できますか?
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')
pagetxt = soup.get_text()
次に、すべての外部ライブラリを使用してプレーンテキストで作業できます。しかし、もっと複雑なことをする必要がある場合。 HTMLはあなたが実際に操作するためにライブラリを使うべきものです。彼らは間違って行くことができます。
関連する問題
- 1. サードパーティのライブラリを使用せずにWebサービスを作成することはできますか?
- 2. Webページ(Coinbase)データPythonを使用した掻き取り
- 3. 移植可能なpythonスクリプト:サードパーティのライブラリをスクリプトに含めることは可能ですか?
- 4. ページをリダイレクトせずに、javascriptを使用せずにリクエストを行うことは可能ですか?
- 5. Rubyで利用可能なWebページの宝石/工具を掻き集める
- 6. ライブラリでThreadPoolを使用することは可能ですか?
- 7. サードパーティのiOSライブラリの例外をキャッチすることは可能ですか?
- 8. Javascriptを使用せずにこれを行うことは可能ですか?
- 9. Pythonでの.aspxページの掻き取り
- 10. Pythonの複数のWebページからのテキストの掻き取り
- 11. ロケーションリスナーを使用せずにAndroid MapViewで現在の場所を取得することは可能ですか?
- 12. ダークWebページをクロールすることは可能ですか?
- 13. 動的Webページをキャッシュすることは可能ですか?
- 14. ページを開かずにWebブラウザのボタンをクリックすることが可能
- 15. Web Pythonで特定のページを掻き集める
- 16. アンドロイドスタジオのプロジェクトレイアウトに外部ライブラリを使用することは可能ですか?
- 17. Pythonでテーブルを掻き集めるWeb
- 18. PythonでWebデータを掻き立てる
- 19. WebをPython 3で掻き集める
- 20. Googleアプリスクリプトでp5.jsライブラリを使用することは可能ですか
- 21. BeautifulSoupとPythonを使ってJavascript Webページを掻く
- 22. Chromiumを使用してローカルWebページから実行可能ファイルを開くことはできますか?
- 23. いくつかのSSLページでパーソナライズされたASP.NET Webアプリケーションを使用することは可能ですか?
- 24. サードパーティのライブラリを使用せずにUIAlertView(iOS、Xamarin)でUITextViewを追加
- 25. マルチスレッドアプリケーションでグローバルカウンタを使用せずに奇数と偶数をプリントすることは可能ですか?
- 26. djangoでoracleを使用するときにポータブルWebアプリケーションを構築することは可能ですか?
- 27. TripadvisorのWebをPythonを使用して掻き集める
- 28. サードパーティのライブラリを角で使用する
- 29. 掻き取り中に美しいスープから部分を隠すことは可能ですか?
- 30. Python:ブラウザを開かずにGmail APIを使用して認証することは可能ですか
あなたは治療を使うことができますが、それは美しいスープより複雑です。 – polku
こんにちはポーク、コメントありがとう。しかし、私はサードパーティ製のライブラリを使用しようとしています。私は、ライブラリをインストールして、それを掻き集めたくないという意味です。方法はありますか? – jack
私はあなたが多くの選択肢を持っているとは思わない、解析HTMLは簡単な作業ではありません。あなたがこの方向を見続けるならば、正規表現について聞いて、それが良い考えになると思うには、おそらく(すでに遅すぎるかもしれない)おそらく近くにいるでしょう...スポイラーアラート:そうではありません。人々はあなたの前に(私を含む)後悔していたhttp://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags – polku