bs4

6熱

2答えて

This questionは4年前に尋ねられましたが、答えは現在BS4のために古くなっています。美しいスープを使ってHTMLファイルのコメントをすべて削除します。 BS4は、各comment as a special type of navigable stringを作るので、私はこのコードが動作するだろうと思った： for comments in soup.find_all('comment'

10熱

2答えて

beautifulsoupでURLの警告を表示しない

私はBeautiful Soup 4を使用して、インターネットから盗んだHTML形式のテキストを解析しています。時にはこのテキストは単に一部のウェブサイトへのリンクです。 BS4は非常にクロス程度であるという事実： UserWarning: "http://example.com" looks like a URL. Beautiful Soup is not an HTTP client. Y

0熱

2答えて

必要なすべてのデータを掻き取るためにWeb Scrapeを取得できません

私はこのウィキペディアのページからデータを削り取ろうとしているプロジェクトに取り組んでいます。その年のカラム（<th>）第4欄「ウォルト・ディズニー・パークス＆リゾート」。コード：今、私はターミナルを通してそれを実行したときに印刷し、そのすべてが、1991年（2回）および2794です。ウォルト・ディズニー・パークスとリゾートからの年数と関連収入をすべて印刷する必要があります。私はまた、

1熱

1答えて

beautifulsoup未分類リストからhrefを取得

なぜこのコードは検索エンジンで見つかった3つのヒットに3つのリンクを出力しないのですか？ from bs4 import BeautifulSoup from urllib import urlopen import urllib2 opener = urllib2.build_opener() opener.addheaders = [('User-agent', 'Mozilla/

1熱

1答えて

タグ間のテキストを取得BeautifulSoup4

私は99damageトップCS：GOプレーヤーのリストを掻き集めようとしています。プレーヤーの名前を取得することに問題があります。 <a href="http://csgo.99damage.de/edb/player/4151-krimz" class="item small"> <span stype="width:80px;"> 1. </span> <span styl

1熱

1答えて

複数の列にまたがるセルを持つhtmlテーブルをPython 3のリストのリストに変換するにはどうすればいいですか？

私はPythonには新しく、いくつかのWebスクラップを必要とする小さなプロジェクトを開始しました。私はBS4を使用し始めましたが、いくつかの列にまたがるセルを持つHTMLテーブルをリストのリストに（Python 3で）変換しようとしているうちに少し立ち往生しています。このhtmlテーブルをリストのリストに変換して、ターミナルテーブルでテキストモードで印刷できるようにしたいとします。だから、私は

0熱

1答えて

BeautifulSoup（BS4）XMLパーサーは

見て、この例ではHTMLエンティティを削除します。 # xml parser bs4.BeautifulSoup('<price>£4</price>', 'xml') # prints: <?xml version="1.0" encoding="utf-8"?> <price>4</price> # html (lxml) parser bs4.BeautifulS

1熱

2答えて

bs4を使用して複数のdiv値を入れてjson形式で出力するにはどうすればよいですか？

私が掻きたいHtmlデータは以下の通りです。多くのdivタグで構成されています。私は、出力したい <div id="hour3"> <div id="day0" class="hour3"> <div class="row first"> <div class="label">Time</div> <div style="font-size: 12px;