私はtest.csv
というCSVファイルを持っています。それはによって分離されています。正確性をチェックするために、**の異なる値に対して
awk 'NR==**' test.csv | wc -w
を使用し、予想どおり2595列があることを確認しました。スペース区切りのパンダでcsvを読み込む際にエラーが発生しました
ヘッダー行があります。私は、次のコードを使用してnumpy配列としてcsvをロードしました。
a = np.genfromtxt("test.csv", skip_header=1, delimiter=' ')
a.shape
(3367, 2595)
そして2595列でファイルを正しくロードします。
次のコードを使用してpandasをロードしたとき、ファイルの読み込みに間違った数の列が含まれていました。
test = pd.read_csv("test.csv", sep=' ')
test.shape
(3367, 2539)
は、その後、私はdelim_whitespace=True
の代わりsep=' '
を使用し、それはまだ同じ結果を与えました。
最後に、index_col=False
を使用し、IndexError: list index out of range
を投げました。
これはパンダのバグですか、何か間違っていますか?私はバージョン0.19.0
を使用しています。
テスト= pd.read_csv( "../実験/ 2500_ig_docfreq_5threshold /のtest.CSV"、=」」のskipRows = 1、ヘッダ=なし、index_col =なし 9) これは機能しました。ありがとう。私はかなり名前のヘッダー行にスペースがないと確信しています。ファイルのヘッダー行またはいくつかの行をどこかにアップロードして共有する必要がありますか? – shahensha
問題は、Pandasが解析した最初の行からDataFrameがどのように見えるかを把握しているため、ヘッダーに空白がなく、パーサーがデータ行だと思った場合、DataFrameには単一の列。実際に2595個の列がある場合は、ここで共有するには大きすぎます。ヘッダーといくつかの行を他の場所にアップロードできれば、それは役に立ちます。 – Batman
リンク先は次のとおりです。https://drive.google.com/file/d/0B-NosSKmH7C3VUVmSld1SkdFbEk/view – shahensha