2016-05-27 9 views
-1

私は美しいスープがどのようにPythonで動作するかを理解しようとしています。私は過去には美しいスープを使っていましたが、サードパーティ製のライブラリを使わずに特定のWebページからデータを読み取ることができるスクリプトを実装しようとしましたが、xmlモジュールには多くのオプションがなく、 Webページからデータを読み込むための優れたドキュメントを持つ他のライブラリはありますか? 私はこれらのスクリプトを特定のWebサイトで使用していません。私は公開ページやニュースブログから読もうとしています。Pythonでサードパーティのライブラリを使用せずにWebページを掻き取ることは可能ですか?

+0

あなたは治療を使うことができますが、それは美しいスープより複雑です。 – polku

+0

こんにちはポーク、コメントありがとう。しかし、私はサードパーティ製のライブラリを使用しようとしています。私は、ライブラリをインストールして、それを掻き集めたくないという意味です。方法はありますか? – jack

+0

私はあなたが多くの選択肢を持っているとは思わない、解析HTMLは簡単な作業ではありません。あなたがこの方向を見続けるならば、正規表現について聞いて、それが良い考えになると思うには、おそらく(すでに遅すぎるかもしれない)おそらく近くにいるでしょう...スポイラーアラート:そうではありません。人々はあなたの前に(私を含む)後悔していたhttp://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags – polku

答えて

0

あなたの人生を楽にするために、サードパーティライブラリが存在します。はい、もちろん、あなたはそれらなしでプログラムを書くことができます(図書館の作者はそうしなければなりません)。しかし、なぜ車輪を再発明するのですか?

あなたの最善の選択肢は、美しいとスカッピーです。しかし、もしあなたがbeautifulsoupに問題があるなら、私は不愉快なことはしません。

おそらく、ウェブサイトのプレーンテキストだけで取得できますか?

from bs4 import BeautifulSoup 
soup = BeautifulSoup(html_doc, 'html.parser') 
pagetxt = soup.get_text() 

次に、すべての外部ライブラリを使用してプレーンテキストで作業できます。しかし、もっと複雑なことをする必要がある場合。 HTMLはあなたが実際に操作するためにライブラリを使うべきものです。彼らは間違って行くことができます。

関連する問題