私はウェブスクレイピングの分野では絶対に初心者ですが、今はウェブページから見えるテキストを抽出したいと思います。上記のコードに表示されているテキストを掻き集める
import urllib2
from bs4 import BeautifulSoup
url = "http://www.espncricinfo.com/"
web_page = urllib2.urlopen(url)
soup = BeautifulSoup(url , "lxml")
print (soup.prettify())
、私は次のような結果を得る:私は、コードのオンラインの作品を見つけとにかく、私はより具体的な結果を得ることができ、どのような間違ったコードで起こっている
/usr/local/lib/python2.7/site-packages/bs4/__init__.py:282: UserWarning: "http://www.espncricinfo.com/" looks like a URL. Beautiful Soup is not an HTTP client. You should probably use an HTTP client like requests to get the document behind the URL, and feed that document to Beautiful Soup.
' that document to Beautiful Soup.' % decoded_markup
<html>
<body>
<p>
http://www.espncricinfo.com/
</p>
</body>
</html>
を。無知になって申し訳ありません。
に保存されていますか?私たちはあなたのために少しだけわかりやすい形式で情報を逆流させるためにここにはいません – Natecat
**表示可能なテキスト**を抽出することは何を意味しますか?Webサイトの例と抽出できるテキストの種類を教えてください。 –
申し訳ありませんこれは基本的に、私がおそらくHTTPクライアントを使用すべきURLを美しいスープに提供したというユーザの警告です。美しいスープは、URLの背後にあるドキュメントのみを受け入れることになります。 –