に結果を書き、私はウェブサイトから選択テキストを抽出しようとしています[https://data.gov.au/dataset?q=&groups=business&sort=extras_harvest_portal%20asc%2C%20score%20desc%2C%20metadata_modified%20desc&_organization_limit=0&organization=reservebankofaustralia&_groups_limit=0]美しいスープを使用して、選択テキストを抽出し、CSV
を、美しいスープを使用してコードを書かれている: `
wiki = "https://data.gov.au/dataset?q=&groups=business&sort=extras_harvest_portal+asc%2C+score+desc%2C+metadata_modified+desc&_organization_limit=0&organization=reservebankofaustralia&_groups_limit=0"
page= urllib.request.urlopen(wiki)
from bs4 import BeautifulSoup
import re
soup = BeautifulSoup(page)
data2 = soup.find_all('h3', class_="dataset-heading")
data3 = []
getdata = []
for link in data2:
data3 = soup.find_all("a", href=re.compile('/dataset/', re.IGNORECASE))
for data in data3:
getdata = data.text
print(getdata)
len(getdata)
`
私のHTMLがあります以下のような:
<a href = "/dataset/banks-assets, class = "label" data-format = "xls">XLS<\a>
私は上記のコードを実行していますが、 'XLS'という単語が代わりに来ていますが、 'XLS'を削除したいのですが、残りのテキストを1列で解析したいと思います。出力は
- 銀行 - 資産
- XLS
- 連結エクスポージャー - 即時およびUltimate リスク根拠
- XLS
- 外国為替取引と 公式区のホールディングス資産
- XLS
- 金融企業や一般フィナンシェ - 選択された資産および負債
- XLS
- 負債および資産 - 月刊XLS連結エクスポージャー - 差し迫ったリスクの基礎 - 国別 国際クレーム
- XLS など.......
上記の出力がリストであるかどうかを確認しました。それはリストを与えられましたが、要素は1つしかありませんが、上に示したように、出力は多くのテキストです。 私を助けてください。
@Arti、任意のフィードバックを?コメント?それはあなたにとって有益でしたか? –
@ Dmitriy、それは私が新しいことを学んだが、事前に物事をdictに変換したときに役立った、あなたは私の答えの投稿を見ることができます。しかし、そこにも私は物事をcsvに入れて立ち往生しています。それを調べて助けてください.- Arti123 – Arti123
@Arti、データをcsvに入れる最も簡単な方法は、私のソリューションの一番下の行に追加したメソッドを使用しています) 後であなたのコードをチェックします。 私の答えが合っていれば、緑色のチェックマークを付けることでそれを受け入れることができますか? –