2016-04-21 9 views
0

私はcsvファイルを読み込み、それをデータフレームに変換しようとしています。ここでは元の列の列は別として、私は自動的に生成されているインデックスの列を取得しています。Python:Python 3を使用してデータフレームのデフォルトインデックスを取り除く方法

    Col1   Col2   Col3 
    411580  66349   3   0  
    402645  66887   8   1  
    388542  82777   4   1  
    265353  137481   8   1  

私はlakhsで巨大なレコードを持っています。私はシャッフルを行いました。インデックスが異なる範囲の理由です。ここで私はこの指数を取り除く必要があります。私は次のようなオプションを試しました:インデックス1として列1を設定できるように、

df = pd.read_csv("File_name", index=0) 

のようなオプションを試しました。しかし、私はインデックスとしてcsvファイル内の私の既存の列のいずれかを設定すると、私のデータ操作のいくつかの他の問題があります。

また、再インデックスオプションを試しました。しかし、それはうまくいきません。私はオプションのほとんどは、様々な他に言及しようとしている

 Col3 
     0  
     1  
     1  
     1  

:デフォルトのインデックスなし、

df.col3: 

       Col3 
    411580  0  
    402645  1  
    388542  1  
    265353  1  

しかし、私は以下のようにそれをしたい:私はCOL3を表示しようとすると、それは以下のように来ています投稿はありますが、何も問題はありません。誰かが私を助けてくれれば素晴らしいだろう。

+0

'index_col = None'が必要です。http://pandas.pydata.org/pandas-docs/version/0.18.0/generated/pandas.read_csv.html#pandas.read_csvを参照してください。 'index_col'を渡さなかったので、' index'パラメタは必要ありません。また、あなたのCSVのインデックスcolをスキップしようとしているか、ちょうどシャッフル後にそれを取り除くのですか?あなたは 'df = df.reset_index(drop = True)'を実行することができます – EdChum

+0

小さな数値でリセットしたいのですか、それとも全く取り除こうとしていますか?私はあなたがインデックスを持つことを取り除くことができるとは思わない。印刷するときに印刷することはできませんが、それだけです。 – piRSquared

+0

私は、いずれかの(シャッフル後または前に)いずれかでうまくいく。私は改造してもそれを取り除くことができます。また、私はindex_col = Noneとdf.reset_index(drop = True)の両方を試しました。それ以降もインデックスがあります。 Col1、Col2、Col3のような特定の列を使って新しいデータフレームを作成しようとしました。その後も、数字のようなインデックスが生成されています。 –

答えて

0

SeriesまたはDataFrameには両方ともインデックスがあります。値を入力するだけの場合は、.valuesを使用して配列を取得するか、df.Col3.tolist()を使用してアレイを取得してください。

>>> df.Col3.values 
array([0, 1, 1, 1]) 

>>> df.Col3.tolist() 
[0, 1, 1, 1] 

>>> df.Col3.values.reshape((len(df.Col3), 1)) 
array([[0], 
     [1], 
     [1], 
     [1]]) 

それともあなたは本当に

>>> pd.DataFrame(['']*len(df), index=df.Col3, columns=['']) 
Col3 
0  
1  
1  
1  

あなたは、インデックスのないデータフレームやシリーズをしたいと思うのはなぜ...完全に役に立たないデータフレームが、あなたが望むものを表示するものをしたいですか?その質問に対する答えは、あなたの問題に対する実際の解決策につながる可能性があります。

+0

説明をありがとう –

関連する問題