2016-04-22 7 views
3

私は区切り文字で読み込むためにパンダを使用しようとしています。セパレータは小文字のrho(þ)というギリシャ語の文字です。rhoで区切られたファイルを読む

正しいread_tableパラメータを定義して、結果として得られるデータフレームが正しくフォーマットされるように苦労しています。

誰でもこれに関する経験や提案はありますか?

ファイルの例は

TimeþUser-IDþAdvertiser-IDþOrder-IDþAd-IDþCreative-IDþCreative-VersionþCreativeサイズ-IDþSite-IDþPage-IDþCountry-IDþState/ProvinceþBrowser-IDþBrowser-VersionþOS-IDþDMA-IDþCity-IDþZip未満であります-CodeþSite-DataþTime-UTC-SEC 03-28-2016-00:50:03þ0þ3893600þ7786669þ298662779þ67802437þ1þ300x250þ1722397þ125754620þ68þþ30þ0.0þ501012þ0þ3711þþþ1459122603 03-28-2016-00:24:29þ0þ3893600þ7352234þ290743769þ55727503þ1þ1x1þ1602646þ117915815þ68þþ31þ0.0þ501012þ0þ3711þþþ1459121069 03-28-2016-00:13:42þ0þ3893600þ7352234þ290743769þ55727503þ1þ1x1þ1602646þ117915815þ68þþ31þ0.0þ501012þ0þ37 11þþþ1459120422 03-28-2016-00:21:09þ0þ3893600þ7352234þ290743769þ55727503þ1þ1x1þ1602646þ117915815þ68þþ31þ0.0þ501012þ0þ3711þþþ1459120869

+2

あなたは 'read_table(file、sep =r'ρ ')'は動作しないと言っていますか?追加のパラメータ 'encoding = 'utf-8''または' encoding =' utf-16''を使用していますか? – EdChum

+0

ええ、そうです。 –

+0

私はWindowsマシン上で助けにはならないかもしれませんが、私の構文が最初であることを確認したいと思います。次のことを試してみてください。 'import pandas as pd data = pd.read_table( 'C:\ Users \ robin.sheridan \ Documents \ RCode \ NetworkImpression_5684_03-28-2016'、sep =r'ρ '、nrows = 10、encoding =' utf-16 ') print(data) ' –

答えて

2

私は何が起こっていることはCのエンジンがここで働いていないことだと思います。もっと強力ですが遅いPythonエンジンに切り替えると、動作しているようです。たとえば、デフォルトのCエンジンで:

>>> df = pd.read_csv("out.rsv",sep="þ") 
>>> df.iloc[:,:5] 
    TimeþUser-IDþAdvertiser-IDþOrder-IDþAd-IDþCreative-IDþCreative-VersionþCreative-Size-IDþSite-IDþPage-IDþCountry-IDþState/ProvinceþBrowser-IDþBrowser-VersionþOS-IDþDMA-IDþCity-IDþZip-CodeþSite-DataþTime-UTC-Sec 
0 03-28-2016-00:50:03þ0þ3893600þ7786669þ29866277...                                        
1 03-28-2016-00:24:29þ0þ3893600þ7352234þ29074376...                                        
2 03-28-2016-00:13:42þ0þ3893600þ7352234þ29074376...                                        
3 03-28-2016-00:21:09þ0þ3893600þ7352234þ29074376...  

しかし、Pythonの持つ:

>>> df = pd.read_csv("out.rsv",sep="þ", engine="python") 
>>> df.iloc[:,:5] 
        Time User-ID Advertiser-ID Order-ID  Ad-ID 
0 03-28-2016-00:50:03  0  3893600 7786669 298662779 
1 03-28-2016-00:24:29  0  3893600 7352234 290743769 
2 03-28-2016-00:13:42  0  3893600 7352234 290743769 
3 03-28-2016-00:21:09  0  3893600 7352234 290743769 

..しかし、真剣に、þ?あなたは区切り文字として」を使用していますか?唯一の検索ヒットGoogleは "rho区切りファイル"のために私に与えるこのすべての質問に関連している!

あなたは小文字のrhoと言っていますが、それは私には棘のように見えることに注意してください。あなたの最後に小文字のrhoがあり、投稿に混乱しているかもしれませんか?

+0

ええ、私の悪い、その棘。 (私はそれがちっちゃなテキストエディタだったことがわかりました...!) 奇妙なことに、それはまだ動作していません。私は週末に私のMacを試してみるつもりです。私のWindowsマシンが愚かなセパレータと同じくらい問題であるという強い疑いがあります。 (明らかに私の選択ではない) あなたの助けてくれてありがとう! –

関連する問題