2016-11-17 12 views
3

pandasのread_csvメソッドがnumpyのloadtxtより高速であることがわかりました。 Unfortunatly今私はnumtに戻る必要がある状況で自分自身を見つけるloadtxtはcomments=['#','@']を設定するオプションがあります。 Pandasのread_csvメソッドは、ヘルプサイトからわかるように、comment='#'のような1つのコメント文字列しか取ることができません。私の人生を楽にしてくれるような提案や回避策はありません。また、なぜパンダは複数のコメントインジケータをサポートしていないのですか?なぜpandas read_csvは複数のコメント(#、@、...)をサポートしていないのですか?

# save this in test.dat 
@ bla 
# bla 
1 2 3 4 

最小例:

# does work, but only one type of comment is accounted for 
df = pd.read_csv('test.dat', index_col=0, header=None, comment='#') 

# does not work (not suprising reading the help) 
df = pd.read_csv('test.dat', index_col=0, header=None, comment=['#','@']) 

# does work but is slow 
df = np.loadtxt('test.dat', comments=['#','@']) 
+0

[MCVE](http://stackoverflow.com/help/mcve) – Kartik

+0

いくつかのテストデータも含めてください。また、そのコードのどれもパンダを使用していません... – darthbith

答えて

3

短い答えは、誰もがまだpandasでそれを実装していないことです。あなたがもしpandasプロジェクトに戻って貢献するため https://github.com/pandas-dev/pandas/issues/13948

は良い機会になるだろう:自分のGithub上の問題を素早く探し、それは他の誰かがそれを示唆しているとメンテナはそれが実装パッチを開いていることのように見えます他の人がそれをしている場合は、その問題に気をつけてください。コメントを扱うコードベースの部分は、_check_commentsにあります。https://github.com/pandas-dev/pandas/blob/master/pandas/io/parsers.py#L2348

関連する問題