beautifulsoup

    1

    1答えて

    私はBeautifulSoupを使って、いくつかのサイトからHTMLを解析し、各サイトをGAEタスクキューに追加しています。しかし、タスクキューは2つのタスクを繰り返すようです。ApplicationError:5エラーがログに記録されるか、またはで失敗します。 'NoneType'オブジェクトには属性 'findAll'がありません。、美しいスープが私がそれを渡したページで何かを見つけられなかっ

    1

    1答えて

    私はGoogle検索結果をPythonで解析したいと思います。すべてが完璧に機能しましたが、今は空のリストを取得しています。 query = urllib.urlencode({'q': self.Tagsinput.GetValue()+footprint,'ie': 'utf-8', 'num':searchresults, 'start': '100'}) result = url + q

    0

    1答えて

    子要素の「レベル」の数を調べようとして問題があります。たとえば、 <div id="first"> <div id="second"> <div id="third"> <div id="fourth"> <div id="fifth"> </div> </div> </div> </div> <div id="second2">

    0

    1答えて

    私はextract the URLs of Google search resultsにいくつかのstackoverflow投稿を読み、python、curl、およびbeautifulsoupを使って同様の実装を書いています。 私の質問は、結果を右クリックして[リンクの場所をコピー]を選択したときなど、Googleのリダイレクトリンクを抽出するにはどうすればよいですか。 おかげで、 チャド

    2

    2答えて

    をbeautifulsoup使用してどのように私はこすりすることができます <a href="www.example.com/"></a> <table class="theclass"> <tr><td> <a href="www.example.com/two">two</a> </td></tr> <tr><td> <a href ="www.example.com/three

    0

    3答えて

    私はBeautifulSoupを使ってPythonのいくつかのHTMLを解析しようとしています。具体的には、スープオブジェクトの2つの配列を作成しようとしています.1つはウェブサイト上の投稿の日付用で、もう1つは投稿自体用です。しかし、投稿と一致するdivクラスでfindAllを使用すると、タグ内のテキストではなく、最初のタグだけが返されます。一方、私のコードは、日付のためにうまく動作します。何が

    3

    1答えて

    BeautifulSoupを使用して属性を挿入するにはどうすればよいですか? たとえば、タグ属性としてborder = "1"を挿入します。 編集:私は自分の質問に答えました (テーブルの特定のクラスのために、偶数): inTopic = urllib2.urlopen( "ファイル:/// C:/テスト/テスト"TLISTでTBL用) : TBL [ '境界'] = "の.html」) 含量=

    0

    2答えて

    <table id="t_id" cellspacing="0" border="0" align="center" height="700" width="600" cellpadding="0"> <tbody> <tr><td> ..test... </td></tr> <tr><td> ..test... </td></tr> <tr><td> ..test... </td></t

    0

    1答えて

    HTML Webページからhtmlとpdfsの両方を取得するために正規表現パターンとして渡す必要があるものはありますか?これまでのところ、私が持っているものは以下の通りです。 OR文を使用する必要があると仮定しましたが、実際には期待どおりに機能しませんでした。 status, response = http.request("http://www.example.com") htmlandpdf

    1

    1答えて

    を取得し、私はこのHTMLを持っている: <a href="/watch?gl=US&client=mv-google&hl=en&v=0C_yXOhJxWg">Miss Black OCU 2011</a> 私のプログラムは、htmlファイルを読み込み、上記のそのファイルのチャンクです。 BeautifulSoupをPythonで使用して「Miss Black OCU