bs4

1熱

1答えて

私はbs4とurllibを使用してGoogle Scholarのデータをスクレイピングしています。私は記事が出版される最初の年を取得しようとしています。たとえば、this pageから私は1996年を取得しようとしています。これは棒グラフから読み取ることができますが、棒グラフをクリックした後でなければなりません。私は次のコードを書いたが、棒グラフがクリックされる前に年を表示する。 from bs4

0熱

1答えて

変更attrsには、私は、ウェブサイトの完全なコンテンツを閲覧しようとしています

PythonのBeautifulSoupが fortune.com/best-companiesフルコンテンツを視聴するには、元のコードがあるそのスクリプトに次のタグ： <nav id="bottom-panel-pagination" class="panel-pagination hasNextOnly"> <div data-event="view left" class="pre

0熱

1答えて

utf-8エンコーディングとギリシャ文字

私が必要としているすべてのデータを取得してcvファイルに保存すると、出力はUTF-8形式になります。 'm wrong'） TBH私はすでに.encode（）と.decode（）オプションを使って "再生"しましたが、結果はありません。は、ここに私のコード brands=[name.text for name in Unibrands] は、ここに出力 u'Spirulina \u0395\

0熱

1答えて

セレンと回転容器

テーブルがあるページとテーブルを更新する次のボタンがあります。私は今、テーブルの内容を抽出することができますが、次のボタンを使用して他の行に移動する必要があります。これは、ページをリフレッシュするためのhrefがない、ある種のAjaxテーブルです。だから私は立ち往生している。ページはhttps://www.whoscored.com/Regions/252/Tournaments/2/Season

2熱

1答えて

反復リンク取り除いた文字列

意図： 1.Accessセレンとhttp://blogdobg.com.br/のメインページ。 2.Identify記事は、BS4に 3.Insert各リンクをリンクし、テキストに引っ張る問題：私はすべてのリンクを印刷したり、BS4 に単一のリンクを移動する限り取得することができます解析と印刷のために。同じリンクで終わった各リンクの読み込みは、何度も繰り返されました。私はちょうど2日前に自分

0熱

2答えて

Pythonがリストを返す

私はbs4を使用していて、必要な単一のページのすべてのリンクを繰り返しています。私はそれらのリンクをリストに保存しました。私はリターンを使用しているとき、私は別の方法でURLを使用すると考えていた def scrape1(self): html = self.browser.page_source soup = BeautifulSoup(html, 'html.parser

0熱

1答えて

beatifulsoup for Visual Studio Python

私はVisual StudioをPythonに使用しています。私は、Web廃棄のためにBeatifulsoupをインストールしたいと考えています。 Python 3.4がインタープリタとしてインストールされています。 BSをインストールしましたが動作しません。にBeatifulsoupを使用するために私を助けてください。私は以下のコードを実行し、 "no module bs4"というエラーが表

0熱

3答えて

Python Beautiful Soup 4 .select（）で要素の子を取得

.select（）要素を使用すると、CSSセレクタに基づいてWebページから要素を取得できますが、Webページ全体を検索します。 .select（）はどのように使うのですか？特定の要素の子だけを検索します。例：  <ul> <li> <div class="foo">foo conten

0熱

1答えて

Python検索とスクレイプ結果

これは私の最初の投稿ですので、重複している場合はお詫びしますが、私の関連する回答は見つかりませんでした。 1つがある場合は私に知らせてくださいと私はそれをチェックします。バークレーの賃貸料上限を見つけるためにウェブサイト（下）を擦ってみようとしていますが、私が抱えている問題は、検索ボックスに住所を挿入して次のページから情報をスクラップする方法。これまで私が扱ったURLは検索入力で変更されましたが