rhoで区切られたファイルを読む

私は区切り文字で読み込むためにパンダを使用しようとしています。セパレータは小文字のrho（þ）というギリシャ語の文字です。rhoで区切られたファイルを読む

正しいread_tableパラメータを定義して、結果として得られるデータフレームが正しくフォーマットされるように苦労しています。

誰でもこれに関する経験や提案はありますか？

ファイルの例は

TimeþUser-IDþAdvertiser-IDþOrder-IDþAd-IDþCreative-IDþCreative-VersionþCreativeサイズ-IDþSite-IDþPage-IDþCountry-IDþState/ProvinceþBrowser-IDþBrowser-VersionþOS-IDþDMA-IDþCity-IDþZip未満であります-CodeþSite-DataþTime-UTC-SEC 03-28-2016-00：50：03þ0þ3893600þ7786669þ298662779þ67802437þ1þ300x250þ1722397þ125754620þ68þþ30þ0.0þ501012þ0þ3711þþþ1459122603 03-28-2016-00：24：29þ0þ3893600þ7352234þ290743769þ55727503þ1þ1x1þ1602646þ117915815þ68þþ31þ0.0þ501012þ0þ3711þþþ1459121069 03-28-2016-00：13：42þ0þ3893600þ7352234þ290743769þ55727503þ1þ1x1þ1602646þ117915815þ68þþ31þ0.0þ501012þ0þ37 11þþþ1459120422 03-28-2016-00：21：09þ0þ3893600þ7352234þ290743769þ55727503þ1þ1x1þ1602646þ117915815þ68þþ31þ0.0þ501012þ0þ3711þþþ1459120869

出典

2016-04-22 Robin Sheridan

あなたは 'read_table（file、sep =r'ρ '）'は動作しないと言っていますか？追加のパラメータ 'encoding = 'utf-8''または' encoding =' utf-16''を使用していますか？ – EdChum

ええ、そうです。 –

私はWindowsマシン上で助けにはならないかもしれませんが、私の構文が最初であることを確認したいと思います。次のことを試してみてください。 'import pandas as pd data = pd.read_table（ 'C：\ Users \ robin.sheridan \ Documents \ RCode \ NetworkImpression_5684_03-28-2016'、sep =r'ρ '、nrows = 10、encoding =' utf-16 '） print（data） ' –

私は何が起こっていることはCのエンジンがここで働いていないことだと思います。もっと強力ですが遅いPythonエンジンに切り替えると、動作しているようです。たとえば、デフォルトのCエンジンで：

>>> df = pd.read_csv("out.rsv",sep="þ") 
>>> df.iloc[:,:5] 
    TimeþUser-IDþAdvertiser-IDþOrder-IDþAd-IDþCreative-IDþCreative-VersionþCreative-Size-IDþSite-IDþPage-IDþCountry-IDþState/ProvinceþBrowser-IDþBrowser-VersionþOS-IDþDMA-IDþCity-IDþZip-CodeþSite-DataþTime-UTC-Sec 
0 03-28-2016-00:50:03þ0þ3893600þ7786669þ29866277...                                        
1 03-28-2016-00:24:29þ0þ3893600þ7352234þ29074376...                                        
2 03-28-2016-00:13:42þ0þ3893600þ7352234þ29074376...                                        
3 03-28-2016-00:21:09þ0þ3893600þ7352234þ29074376...

しかし、Pythonの持つ：

>>> df = pd.read_csv("out.rsv",sep="þ", engine="python") 
>>> df.iloc[:,:5] 
        Time User-ID Advertiser-ID Order-ID  Ad-ID 
0 03-28-2016-00:50:03  0  3893600 7786669 298662779 
1 03-28-2016-00:24:29  0  3893600 7352234 290743769 
2 03-28-2016-00:13:42  0  3893600 7352234 290743769 
3 03-28-2016-00:21:09  0  3893600 7352234 290743769

..しかし、真剣に、þ？あなたは区切り文字として「」を使用していますか？唯一の検索ヒットGoogleは "rho区切りファイル"のために私に与えるこのすべての質問に関連している！

あなたは小文字のrhoと言っていますが、それは私には棘のように見えることに注意してください。あなたの最後に小文字のrhoがあり、投稿に混乱しているかもしれませんか？

出典

2016-04-22 16:37:48 DSM

ええ、私の悪い、その棘。（私はそれがちっちゃなテキストエディタだったことがわかりました...！）奇妙なことに、それはまだ動作していません。私は週末に私のMacを試してみるつもりです。私のWindowsマシンが愚かなセパレータと同じくらい問題であるという強い疑いがあります。（明らかに私の選択ではない）あなたの助けてくれてありがとう！ –

rhoで区切られたファイルを読む

答えて

関連する問題