2017-09-07 18 views
1

のポーランド文字を取得csvファイルに私はテーブルを抽出し、それを作った以下のコードを使用してのpython

import pandas as pd 
x = pd.read_html('https://www.ebmia.pl/lozyska-kulkowe-zwykle-seria-c-196_140_1328_1282_3375.html')[0] 
x.to_csv('file.csv') 

「L」のように、すべてのポリッシュの文字が変換されます「?」 csvファイル内。

どのようにして元のポリッシュ文字をCSVファイルで取得できますか。

+0

は多分 'エンコード= 'UTF-8''をパラメータが必要です。あなたのファイルなしで答えるのは難しいです。ドロップボックス、gdocsに10行のファイルをアップロードすることは可能ですか? – jezrael

+0

これは動作します: 'pd.read_html( 'https://www.ebmia.pl/lozyska-kulkowe-zwykle-seria-c-196_140_1328_1282_3375.html'、encoding = 'utf-8')'、それは保存されているようです私のための磨き文字 – EdChum

+0

'x'はリストです。このコードはどのように動作していますか?それは有効ではありません。 –

答えて

1

私は、あなたが最初のテーブルには[0]を追加解析されたリターンのために、encoding='utf-8'をPARAMTER必要だと思うのでDataFramesread_htmlリターンリスト:

url = 'https://www.ebmia.pl/lozyska-kulkowe-zwykle-seria-c-196_140_1328_1282_3375.html' 
df = pd.read_html(url, encoding='utf-8')[0] 

いくつかのデータクリーニング:

#remove first level in columns with filters in html 
df.columns = df.columns.droplevel(1) 
#replace NaN by forward filling 
df['Zdjęcie'] = df['Zdjęcie'].ffill() 
#remove NaNs rows by checking Wewnętrzny mm column 
df = df.dropna(subset=['Wewnętrzny mm ']) 
print (df.head()) 
               Zdjęcie Oznaczenie ⇓ \ 
4 Łożysko kulkowe zwykłe 16001 NSK - (symbol: L0...   16001 
7 Łożysko kulkowe zwykłe 16001 ZZ FAG - (symbol:...  16001 2Z 
10 Łożysko kulkowe zwykłe 16002.SKF - (symbol: L0...   16002 
13 Łożysko kulkowe zwykłe 16002-A.FAG - (symbol: ...   16002 
16 Łożysko kulkowe zwykłe 16002 - (symbol: L0101-...   16002 

    Wewnętrzny mm Zewnętrzny mm Szerokość/wysokość mm Zabudowa Luz \ 
4   1200.0   2800.0      700.0   - - 
7   1200.0   2800.0      700.0  2Z - 
10   1500.0   3200.0      800.0   - - 
13   1500.0   3200.0      800.0   - - 
16   1500.0   3200.0      800.0   - - 

        Producent Cena(brutto) 
4 NSK BEARINGS POLSKA S.A.  22,14 zł 
7      NaN   NaN 
10      NaN  31,34 zł 
13      NaN  17,11 zł 
16      NaN  5,40 zł 

csvに出力を書き込む必要であれば:

df.to_csv('file', encoding='utf-8', index=False) 
のために働い

同じパラメータ:

df = pd.read_csv('file.csv', encoding='utf-8') 
関連する問題