私は約100種類のCSVを持っていますが、それらはすべて様々なソースからのデータを含んでおり、したがって異なる区切り文字を持っています。 CSVの構造を推測できるPythonライブラリはありますか?Python:行の最後にカンマを持たないCSVを扱うには?
例えば、誰かがこのようなテーブル持っていた:
color, shape, avg weight,
red, square, 15g,
blue, circle, 11g,
を彼らは保存したCSVのように見えた:私は、私が使用して把握列の数を(知っている場合
'color', 'shape', 'avg weight', 'red', 'square', '15g', 'blue', 'circle', '11g'
は、関数)リストのリストを作成して、それをpandas DataFrame
にすることができます。
color, shape, avg weight
red, square, 15g
blue, circle, 11g
など、彼らが送るCSVのは、見て::
はしかし、人々の多くは、このように、行の末尾にカンマを持っていないデータを持ってそれを取得
'color', 'shape', 'avg weight' 'red', 'square', '15g' 'blue', 'circle', '11g'
値がない場合でも、悪いことavg weight
のような:CSV股関節になり
color, shape, avg weight
red, square,
blue, circle, 11g
次のようになります。
'color', 'shape', 'avg weight' '', 'square', '15g' 'blue', 'circle', '11g'
どうすれば対処できますか?あるいは、私が探索できるライブラリは何ですか?
データを修正します。一貫した構造が必要です。あるいは、パーサーをプログラムすることはほとんど不可能です。 – gravity
これは私の選択肢ではありません – user1367204