bs4

    6

    2答えて

    This questionは4年前に尋ねられましたが、答えは現在BS4のために古くなっています。 美しいスープを使ってHTMLファイルのコメントをすべて削除します。 BS4は、各comment as a special type of navigable stringを作るので、私はこのコードが動作するだろうと思った: for comments in soup.find_all('comment'

    10

    2答えて

    私はBeautiful Soup 4を使用して、インターネットから盗んだHTML形式のテキストを解析しています。時にはこのテキストは単に一部のウェブサイトへのリンクです。 BS4は非常にクロス程度であるという事実: UserWarning: "http://example.com" looks like a URL. Beautiful Soup is not an HTTP client. Y

    0

    2答えて

    私はこのウィキペディアのページからデータを削り取ろうとしているプロジェクトに取り組んでいます。その年のカラム(<th>)第4欄「ウォルト・ディズニー・パークス&リゾート」。 コード:今 ​​ 、私はターミナルを通してそれを実行したときに印刷し、そのすべてが、1991年(2回)および2794です。ウォルト・ディズニー・パークスとリゾートからの年数と関連収入をすべて印刷する必要があります。私はまた、

    1

    1答えて

    なぜこのコードは検索エンジンで見つかった3つのヒットに3つのリンクを出力しないのですか? from bs4 import BeautifulSoup from urllib import urlopen import urllib2 opener = urllib2.build_opener() opener.addheaders = [('User-agent', 'Mozilla/

    1

    1答えて

    私は99damageトップCS:GOプレーヤーのリストを掻き集めようとしています。プレーヤーの名前を取得することに問題があります。 <a href="http://csgo.99damage.de/edb/player/4151-krimz" class="item small"> <span stype="width:80px;"> 1. </span> <span styl

    1

    1答えて

    私はPythonには新しく、いくつかのWebスクラップを必要とする小さなプロジェクトを開始しました。私はBS4を使用し始めましたが、いくつかの列にまたがるセルを持つHTMLテーブルをリストのリストに(Python 3で)変換しようとしているうちに少し立ち往生しています。 このhtmlテーブルをリストのリストに変換して、ターミナルテーブルでテキストモードで印刷できるようにしたいとします。だから、私は

    0

    1答えて

    見て、この例ではHTMLエンティティを削除します。 # xml parser bs4.BeautifulSoup('<price>£4</price>', 'xml') # prints: <?xml version="1.0" encoding="utf-8"?> <price>4</price> # html (lxml) parser bs4.BeautifulS

    1

    2答えて

    私が掻きたいHtmlデータは以下の通りです。多くのdivタグで構成されています。私は、出力したい <div id="hour3"> <div id="day0" class="hour3"> <div class="row first"> <div class="label">Time</div> <div style="font-size: 12px;