私は、あなたが最初のテーブルには[0]
を追加解析されたリターンのために、encoding='utf-8'
をPARAMTER必要だと思うのでDataFrames
のread_html
リターンリスト:
url = 'https://www.ebmia.pl/lozyska-kulkowe-zwykle-seria-c-196_140_1328_1282_3375.html'
df = pd.read_html(url, encoding='utf-8')[0]
いくつかのデータクリーニング:
#remove first level in columns with filters in html
df.columns = df.columns.droplevel(1)
#replace NaN by forward filling
df['Zdjęcie'] = df['Zdjęcie'].ffill()
#remove NaNs rows by checking Wewnętrzny mm column
df = df.dropna(subset=['Wewnętrzny mm '])
print (df.head())
Zdjęcie Oznaczenie ⇓ \
4 Łożysko kulkowe zwykłe 16001 NSK - (symbol: L0... 16001
7 Łożysko kulkowe zwykłe 16001 ZZ FAG - (symbol:... 16001 2Z
10 Łożysko kulkowe zwykłe 16002.SKF - (symbol: L0... 16002
13 Łożysko kulkowe zwykłe 16002-A.FAG - (symbol: ... 16002
16 Łożysko kulkowe zwykłe 16002 - (symbol: L0101-... 16002
Wewnętrzny mm Zewnętrzny mm Szerokość/wysokość mm Zabudowa Luz \
4 1200.0 2800.0 700.0 - -
7 1200.0 2800.0 700.0 2Z -
10 1500.0 3200.0 800.0 - -
13 1500.0 3200.0 800.0 - -
16 1500.0 3200.0 800.0 - -
Producent Cena(brutto)
4 NSK BEARINGS POLSKA S.A. 22,14 zł
7 NaN NaN
10 NaN 31,34 zł
13 NaN 17,11 zł
16 NaN 5,40 zł
csv
に出力を書き込む必要であれば:
df.to_csv('file', encoding='utf-8', index=False)
のために働い
同じパラメータ:
df = pd.read_csv('file.csv', encoding='utf-8')
は多分 'エンコード= 'UTF-8''をパラメータが必要です。あなたのファイルなしで答えるのは難しいです。ドロップボックス、gdocsに10行のファイルをアップロードすることは可能ですか? – jezrael
これは動作します: 'pd.read_html( 'https://www.ebmia.pl/lozyska-kulkowe-zwykle-seria-c-196_140_1328_1282_3375.html'、encoding = 'utf-8')'、それは保存されているようです私のための磨き文字 – EdChum
'x'はリストです。このコードはどのように動作していますか?それは有効ではありません。 –