0
私はパンダの新作です。パンダのデータプル - 浮遊する文字列
1)「Ravenue」のデータ:私はのための解決策を見つけるように見えることはできません、それを持つ2つの深刻な問題を抱えている
Rank Corporation Sector Headquarters Revenue (thousand PLN) Profit (thousand PLN) Employees
1.ÿ PKN Orlen SA oil and gas P?ock 79 037 121 2 396 447 4,445
2.ÿ Lotos Group SA oil and gas Gda?sk 29 258 539 584 878 5,168
3.ÿ PGE SA energy Warsaw 28 111 354 6 165 394 44,317
4.ÿ Jer¢nimo Martins retail Kostrzyn 25 285 407 N/A 36,419
5.ÿ PGNiG SA oil and gas Warsaw 23 003 534 1 711 787 33,071
6.ÿ Tauron Group SA energy Katowice 20 755 222 1 565 936 26,710
7.ÿ KGHM Polska Mied? SA mining Lubin 20 097 392 13 653 597 18,578
8.ÿ Metro Group Poland retail Warsaw 17 200 000 N/A 22,556
9.ÿ Fiat Auto Poland SA automotive Bielsko-Bia?a 16 513 651 83 919 5,303
10.ÿ Orange Polska telecommunications Warsaw 14 922 000 1 785 000 23,805
:小さな実践のcsvファイルで作業している間、私は、以下のデータを引っ張っと "利益"列は、何千もの間のスペースで面白い書式設定のために文字列として引っ張られ、私はPandasを浮動小数点値に変換する方法を理解できないようです。
2)「ランク」列のデータは、「1.?」、「2.?」、「2.?そこには何が起こっていますか?再び、このデータを "1"、 "2"などのような適切なもので書き直そうとしているときに、 DataFrameはちょうど変化しません。
アイデア?提案?私はまた、私の問題が非常に明白で愚かであるかもしれないので、完全な打ちのめすために開いています:
「数千人の間のスペースを持つファニーフォーマット」へ
パスこれは実際にポーランド(ともロシア)数千人を分離する方法です。残念ながら、ポーランド語の数字ロケールはサポートされていないようですが、この質問の最初の答えは、http://stackoverflow.com/questions/42937460/how-to-set-a-custom-thousands-separatorが回避策を提供します。 2番目の質問に関して、私はどこから来たのかわからない(実際にファイルの終わりを表す、EOF)が、df ['Rank'] = df ['Rank']。str.strip( 'ÿ ') 'それらの世話をする必要があります。 – DyZ
1.データを変換または使用する前に、しばしばデータをクリーンアップする必要があります。 float(value.replace( ''、 ''))) 'と2については、オリジナルのサンプル行を共有できますか? 'df [' Revenue '] = df [' Revenue ' CSV? – Quitty
@Quitty絶対に必要な場合を除いて、 'apply'を呼び出さないでください。コードの順序が遅くなるためです。 'df ['Revenue'] = df ['Revenue'] .str.replace( ''、 '')。astype(float)'はより効率的です。 – DyZ