beautifulsoup

    1

    3答えて

    特定のHTMLノードをアサートするSeleniumテストでは、現在のアトリビュートとその値(順序は重要ではありません)他の属性は存在しない。次のフラグメント与え例えば: <input name="test" value="something"/> を私は次の(任意)の例は、一致しませんように、HTML出力でその存在を主張する良い方法を思い付くしようとしています: <input name="test

    1

    2答えて

    多数のページ(たとえば1000)を解析し、リンクをtinyurlリンクに置き換える必要があります。 は今、私は正規表現 href_link_re = re.compile(r"<a[^>]+?href\s*=\s*(\"|')(.*?)\1[^>]*>", re.S) を使用して、これをやっているが、その十分に速くありません。 私はこれまで ステートマシンを考えています は、あなたがより速くを

    0

    2答えて

    >>> soup = BeautifulSoup(data) Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/usr/lib/pymodules/python2.6/BeautifulSoup.py", line 1499, in __init__

    4

    1答えて

    私は美味しいスープを使用しています。 タグ(パーズツリーには含まれていないもの)の横の位置に基づいてタグを保持できる方法はありますか? たとえば、のは、私が持っているとしましょうが...この例では <html> <body> <p>paragraph 1</p> <p>paragraph 2</p> <!--text--> <p>paragraph 3</p> </body> </h

    1

    2答えて

    を解析するためにPythonとBeautifulSoupを使用します。私は最初のtdタグを基準(findで)、またはそれらすべて(findAllで)に合わせることができます。 今、私はそれらすべてを取得し、findAllのを使用して、私はそれらのうちの欲しいコンテンツを取得、それは(私は検索に制限をつけていても)非効率的であるように、それは思えることができます。私が望む基準を満たす特定のtdタグに

    1

    2答えて

    URLがbrタグで区切られたhtmlファイルがあります。 <a href="example.com/page1.html">Site1</a><br/> <a href="example.com/page2.html">Site2</a><br/> <a href="example.com/page3.html">Site3</a><br/> 注改行タグは<br/>の代わり<br />です

    -1

    2答えて

    を見つけるには、私はhtmlコードを持っていますか? soup.findは( 'DIV'、{ 'ID': "DIV1は"})を返し: <div id='div1'> <div id='d'> </div> <p></p> </div> 私は取得する必要が: <div id='d'> </div> <p></p>

    1

    1答えて

    私はいくつかのファイルでurllib2オープナーを使ってPythonでHTMLファイルの一部を読むと(しかし、すべてではありません)、たくさんのバックスラッシュとUnicode 003c文字列が埋め込まれています。私はこのテキストをBeautifulSoupに送りますが、findAll()で探しているものを見つけるのが難しくなりました。私は現在、これらのすべてのUnicode文字列が原因だと考えて

    0

    4答えて

    私はBeautifulSoupを使用して下に見られる2番目のテーブルを解析しようとしています。テーブルの属性がまったく同じであるため、2番目のテーブルと1番目のテーブルを区別するのが難しいです。名前= PATHWAYなどの表の情報にアクセスするにはどうすればよいですか?私は、テーブルにアクセスしようとするために、これまで使用してきたことは次のとおりです。 table = soup.find('ta

    0

    1答えて

    私はドキュメントを見てきましたが、この問題は扱いません。私はすべてのテキストとすべてのリンクを抽出しようとしていますが、別々にはできません。私はそれらをインタリーブして文脈を維持してほしい。私は、テキストとリンクのインターリーブされたリストで終わりたいです。これはBeautifulSoupでも可能ですか?