beautifulsoup

1熱

3答えて

特定のHTMLノードをアサートするSeleniumテストでは、現在のアトリビュートとその値（順序は重要ではありません）他の属性は存在しない。次のフラグメント与え例えば： <input name="test" value="something"/> を私は次の（任意）の例は、一致しませんように、HTML出力でその存在を主張する良い方法を思い付くしようとしています： <input name="test

1熱

2答えて

Pythonのページのリンクを高速に解析する

多数のページ（たとえば1000）を解析し、リンクをtinyurlリンクに置き換える必要があります。は今、私は正規表現 href_link_re = re.compile(r"<a[^>]+?href\s*=\s*(\"|')(.*?)\1[^>]*>", re.S) を使用して、これをやっているが、その十分に速くありません。私はこれまでステートマシンを考えていますは、あなたがより速くを

0熱

2答えて

美しいスープ不正な形式の開始タグのエラー

>>> soup = BeautifulSoup(data) Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/usr/lib/pymodules/python2.6/BeautifulSoup.py", line 1499, in __init__

4熱

1答えて

美しいスープ - コメントの隣の位置に基づいてタグを特定します

私は美味しいスープを使用しています。タグ（パーズツリーには含まれていないもの）の横の位置に基づいてタグを保持できる方法はありますか？たとえば、のは、私が持っているとしましょうが...この例では <html> <body> <p>paragraph 1</p> <p>paragraph 2</p>  <p>paragraph 3</p> </body> </h

1熱

2答えて

私はPythonとBeautifulSoupで特定のtdタグ内のコンテンツにアクセスしようとしています。表

を解析するためにPythonとBeautifulSoupを使用します。私は最初のtdタグを基準（findで）、またはそれらすべて（findAllで）に合わせることができます。今、私はそれらすべてを取得し、findAllのを使用して、私はそれらのうちの欲しいコンテンツを取得、それは（私は検索に制限をつけていても）非効率的であるように、それは思えることができます。私が望む基準を満たす特定のtdタグに

1熱

2答えて

不正な形式のbrタグでの解析解析の問題

URLがbrタグで区切られたhtmlファイルがあります。 <a href="example.com/page1.html">Site1</a><br/> <a href="example.com/page2.html">Site2</a><br/> <a href="example.com/page3.html">Site3</a><br/> 注改行タグは<br/>の代わり<br />です

-1熱

2答えて

BeautifulSoupと

を見つけるには、私はhtmlコードを持っていますか？ soup.findは（ 'DIV'、{ 'ID'： "DIV1は"}）を返し： <div id='div1'> <div id='d'> </div> <p></p> </div> 私は取得する必要が： <div id='d'> </div> <p></p>

1熱

1答えて

ユニコードを変換/変換する方法は、読んだHTML文書で< and >をエスケープしましたか？

私はいくつかのファイルでurllib2オープナーを使ってPythonでHTMLファイルの一部を読むと（しかし、すべてではありません）、たくさんのバックスラッシュとUnicode 003c文字列が埋め込まれています。私はこのテキストをBeautifulSoupに送りますが、findAll（）で探しているものを見つけるのが難しくなりました。私は現在、これらのすべてのUnicode文字列が原因だと考えて

0熱

4答えて

HTML解析テーブル - BeautifulSoup

私はBeautifulSoupを使用して下に見られる2番目のテーブルを解析しようとしています。テーブルの属性がまったく同じであるため、2番目のテーブルと1番目のテーブルを区別するのが難しいです。名前= PATHWAYなどの表の情報にアクセスするにはどうすればよいですか？私は、テーブルにアクセスしようとするために、これまで使用してきたことは次のとおりです。 table = soup.find('ta

0熱

1答えて

美しいスープを使って複数のアイテムを抽出することは可能ですか？

私はドキュメントを見てきましたが、この問題は扱いません。私はすべてのテキストとすべてのリンクを抽出しようとしていますが、別々にはできません。私はそれらをインタリーブして文脈を維持してほしい。私は、テキストとリンクのインターリーブされたリストで終わりたいです。これはBeautifulSoupでも可能ですか？