以下のHTMLページからCSVファイルを抽出する必要があります。以下は、以前の割り当てからHTMLコードの特定の行を抽出するコードです。 URLは 'https://vincentarelbundock.github.io/Rdatasets/datasets.html' です。テストコードなので、その行が見つかると一時的に破棄されます。 私のcsvの行の一部はhrefですcsv/datasets/co2.csv(ユニコードはタイプと思います)複数のCSVファイルリンクを含むWebページHTMLから特定のCSVを抽出する方法
どのようにco2.csvを開きますか? ご質問に関する書式設定の問題についてお詫び申し上げます。コードはエディタによってスライスされ、ダイスされています。
import urllib
url = 'https://vincentarelbundock.github.io/Rdatasets/datasets.html'
from BeautifulSoup import *
def scrapper(url,k):
c=0
html = urllib.urlopen(url).read()
soup = BeautifulSoup(html)
#. Retrieve all of the anchor tags
tags = soup('a')
for tag in tags:
y= (tag.get('href', None))
#print ((y))
if y == 'csv/datasets/co2.csv':
print y
break
c= c+ 1
if c is k:
return y
print(type(y))
for w in range(29):
print(scrapper(url,w))
あなたの質問を改善してください:あなたが唯一の*シングル* '' co2.csv''ファイルを処理したい場合は、それは明らかではない、またはあなたがしたい場合は* htmlページにリンクされているすべての* csvファイルを処理します。 –
私は1つのファイルだけが必要です。 Co2.csv – Cliff
そして、私はそのファイルを取って、データ解析を行いたい(線形回帰)。 – Cliff