2016-05-03 11 views
0

値がカンマを含むcsvファイルを読み込む方法をいくつか検索しましたが、pandasだけで正しく読み込む方法は見たことがありません。いくつかの値にカンダが含まれているcsvファイルを読む方法

たとえば、「C」列の値にカンマが含まれている場合、csvファイルには「A」、「B」、「C」、「D」、「E」、「F」列が含まれます。

pd.read_csv('my.csv',quotechar="'") 

しかし

CParserError: Error tokenizing data. C error: Expected 6 fields in line 1553, saw 7 

が更新

それが返されます:C列で

いくつかの値が開始

C列の値の種類は、私はこれを試してみました弦

です"hello"のようなコンマで、 "hello、hello、hello"のような値の間のいくつかのカンマ

私の問題を解決するために、パラメータquotecharを設定するにはどうすればよいですか?

+0

C列には引用符がありますか? – ayhan

+6

あなたのCSVを数行(1550〜1555行)で投稿できますか? – ayhan

+1

例がないと不明ですが、これは関連している可能性があります。 http://stackoverflow.com/questions/24079304/numpy-genfromtxt-pandas-read-csv-ignore-commas-within-quote-marks – atomh33ls

答えて

1

SQLクエリを含むCSVファイルをpandasで解析しようとすると、この種の問題が発生しました。そのため、いくつかの列の中にカンマが含まれていました。その問題を解決するために

、私たちは私たちの列のカンマよりも別のセパレータを使用していた、とそのように、それに応じてpandas.read_csvから「9月」属性を設定します。

df = pd.read_csv(path, sep=';') 

Personnaly、私は」ので、怠け者なら、あなたが入力したCSVのコンマから区切り文字をセミコロンのようなものに変更するだけです(または変更を依頼する)。

しかし、あなたができない場合は、ここで解決策を探している間、私が見つけた何か:あなたはそのコード内で見ることができるように

Pandas Read CSV with string delimiters via regex

は、正規表現を使用し、ユーザーがそのを解析することができました区切り記号がパンダのために明確に定義されていない間に、抽出する価値のある正規表現とそれを行う方法を記述することによって、csvファイルを作成しました。

私はregexの専門家ではありませんが、あなたのニーズに合うかもしれません。

関連する問題