パンダのデータプル - 浮遊する文字列

1）「Ravenue」のデータ：私はのための解決策を見つけるように見えることはできません、それを持つ2つの深刻な問題を抱えている

Rank Corporation Sector Headquarters Revenue (thousand PLN) Profit (thousand PLN) Employees 


1.ÿ PKN Orlen SA oil and gas P?ock 79 037 121 2 396 447 4,445 

2.ÿ Lotos Group SA oil and gas Gda?sk 29 258 539 584 878 5,168 

3.ÿ PGE SA energy Warsaw 28 111 354 6 165 394 44,317 

4.ÿ Jer¢nimo Martins retail Kostrzyn 25 285 407 N/A 36,419 

5.ÿ PGNiG SA oil and gas Warsaw 23 003 534 1 711 787 33,071 

6.ÿ Tauron Group SA energy Katowice 20 755 222 1 565 936 26,710 

7.ÿ KGHM Polska Mied? SA mining Lubin 20 097 392 13 653 597 18,578 

8.ÿ Metro Group Poland retail Warsaw 17 200 000 N/A 22,556 

9.ÿ Fiat Auto Poland SA automotive Bielsko-Bia?a 16 513 651 83 919 5,303 

10.ÿ Orange Polska telecommunications Warsaw 14 922 000 1 785 000 23,805

：小さな実践のcsvファイルで作業している間、私は、以下のデータを引っ張っと "利益"列は、何千もの間のスペースで面白い書式設定のために文字列として引っ張られ、私はPandasを浮動小数点値に変換する方法を理解できないようです。

2）「ランク」列のデータは、「1.？」、「2.？」、「2.？そこには何が起こっていますか？再び、このデータを "1"、 "2"などのような適切なもので書き直そうとしているときに、 DataFrameはちょうど変化しません。

アイデア？提案？私はまた、私の問題が非常に明白で愚かであるかもしれないので、完全な打ちのめすために開いています：

出典

2017-04-13 Greem666

「数千人の間のスペースを持つファニーフォーマット」へ

パスこれは実際にポーランド（ともロシア）数千人を分離する方法です。残念ながら、ポーランド語の数字ロケールはサポートされていないようですが、この質問の最初の答えは、http://stackoverflow.com/questions/42937460/how-to-set-a-custom-thousands-separatorが回避策を提供します。 2番目の質問に関して、私はどこから来たのかわからない（実際にファイルの終わりを表す、EOF）が、df ['Rank'] = df ['Rank']。str.strip（ 'ÿ '） 'それらの世話をする必要があります。 – DyZ

1.データを変換または使用する前に、しばしばデータをクリーンアップする必要があります。 float（value.replace（ ''、 ''））） 'と2については、オリジナルのサンプル行を共有できますか？ 'df [' Revenue '] = df [' Revenue ' CSV？ – Quitty

@Quitty絶対に必要な場合を除いて、 'apply'を呼び出さないでください。コードの順序が遅くなるためです。 'df ['Revenue'] = df ['Revenue'] .str.replace（ ''、 ''）。astype（float）'はより効率的です。 – DyZ

私はconvertersパラメータを使用します。あなたのpd.read_csvコール

def space_float(x): 
    return float(x.replace(' ', '')) 

converters = { 
    'Revenue (thousand PLN)': space_float, 
    'Profit (thousand PLN)': space_float, 
    'Rank': str.strip 
} 

pd.read_csv(... converters=converters ...)

出典

2017-04-13 06:15:01 piRSquared

パンダのデータプル - 浮遊する文字列

答えて

関連する問題