の特定の要素をこすりするより良い方法私はこのURLでテーブルからいくつかの公に利用可能な小売データをスクレイピングしています:https://502data.com/retailers美しいスープ - テーブル
私の目標は、例えば、列ごとにPythonでリストを作成することですウェブテーブルのその列のすべてのエントリを含む「Name_list」、「County_list」などを含む。ここで
は窮地を使い始めるための私のコードです:
r = requests.get(url_to_scrape)
soup = BeautifulSoup(r.text, 'html.parser')
all_text = soup.get_text()
私のall_text変数は必要ないかもしれないように私には思えます。私が現在実現しているよりも、これを行うためには、より滑らかな方法が必要であるように見えます。
all_text[7200:8000]
上記利回り:たとえば
u', function($scope, $filter) {\n $scope.retailers = [{"licensenumber":"414876","name":"MAIN STREET MARIJUANA","city":"VANCOUVER","county":"CLARK","year":2017,"month":5,"sales":41170232.357500,"tax":14971101.020000,"recentSales":1374866.000000,"recentTax":508700.000000,"monthName":"May"}, ...
私は$ scope.retailers後= Iが解析する簡単な方法のように見えるものに保存されている、私は必要なすべての情報を持っていることがわかります。
私は美しいスープに慣れていないので、スープまたはall_text変数を使用してこのテーブルをループし、Webテーブルの各行のデータを引き出すのに最適なコマンドを知ることができます。
この問題の具体的な解決方法と、初心者のための一般的なBeautifulSoupアドバイスをお探しください。
よろしくお願い致します。レスポンス変数の 'ヘッダー'によって何が指定されているのか説明できますか? – pavlov
@pavlovこの場合、カスタムのユーザーエージェントヘッダーを指定する必要はありません。ちょうど私の悪いWebスクレイピングの癖です。 – alecxe
それは何ですか?あなたは擦り傷に使用しているコンピュータとブラウザを指定していますか? – pavlov