2016-11-22 15 views
0

githubから1つのデータcsvファイルを取得し、それを読むためにpd.csv_read()を使用します。このようなシリーズ番号が自動的に作成されます。csv_read()を実行すると自動的にシリーズ番号を作成する方法は?

label repeattrips  id offer_id never_bought_company \ 
0  1   5  86246 1208251      0 
1  1   16  86252 1197502      0 
2  0   0 12682470 1197502      1 
3  0   0 12996040 1197502      1 
4  0   0 13089312 1204821      0 
5  0   0 13179265 1197502      1 
6  0   0 13251776 1200581      0 

私のCSVファイルを作成して読むとき。

label gender age_range action0 action1 action2 action3 first \ 
0  0  2   1  0  1  0  2  1 
0  0  4   0  0  1  0  1  1 
0  1  2   8  0  1  0  9  1 
1  0  2   0  0  1  0  1  1 
0  1  5   0  0  1  0  1  1 
0  1  5   0  0  1  0  1  1 

私の出力ではラベルはシリーズ番号と見なされます。

データのすべての行の前にシリーズ番号を作成しても、問題は解決しませんでした。このように:

 label gender age_range action0 action1 action2 action3 first \ 
0 0  0  2   1  0  1  0  2  1 
1 0  0  4   0  0  1  0  1  1 
2 0  1  2   8  0  1  0  9  1 
3 1  0  2   0  0  1  0  1  1 
4 0  1  5   0  0  1  0  1  1 
5 0  1  5   0  0  1  0  1  1 
6 0  0  7   5  0  1  0  6  1 
7 0  0  7   1  0  1  0  2  1 

私はそれを正しく保存したかどうか分かりません。私のCSVデータは、この(追加シリーズ番号)のようなもので、githubのファイルも同様に似た形式になります:空白の1ではなく、1つのブランクに1行のすべての項目で

label gender age_range action0 action1 action2 action3 first second third fourth sirstrate secondrate thirdrate fourthrate total_cat total_brand total_time total_items users_appear users_items users_cats users_brands users_times users_action0 users_action1 users_action2 users_action3 merchants_appear merchants_items merchants_cats merchants_brands merchants_times merchants_action0 merchants_action1 merchants_action2 merchants_action3 
0 0 0 2 1 0 1 0 2 1 1 0 0.0224719101124 0.5 0.5 0 1 1 1 1 89 71 22 45 17 87 0 2 0 46 34 11 16 3 38 4 2 2 
1 0 0 4 0 0 1 0 1 1 1 0 0.00469483568075 0.0232558139535 0.0232558139535 0.0 1 1 1 1 213 102 47 44 30 170 0 36 7 103 58 25 23 6 81 0 22 0 
2 0 1 2 8 0 1 0 9 1 1 0 0.0157342657343 0.0181818181818 0.0181818181818 0.0 2 2 1 5 572 393 111 158 60 517 0 15 40 119 70 24 20 17 106 6 7 0 
3 1 0 2 0 0 1 0 1 1 1 0 0.0142857142857 0.0769230769231 0.0769230769231 0.0 1 1 1 1 70 33 19 15 15 57 0 11 2 27 17 11 15 11 18 0 2 7 
4 0 1 5 0 0 1 0 1 1 1 0 0.025641025641 0.2 0.2 0.0 1 1 1 1 39 32 16 29 14 34 0 4 1 133 88 26 25 11 128 0 5 0 

一行。

これを解決する方法を教えてください。

答えて

1

なぜあなたは問題に直面しているのか不明確であるため、より多くの実質的な助けを得るためにコードを提供する必要があります。私はすべての行の私の終わりがある見つける

In [2]: pd.read_clipboard() 
Out[2]: 
    label gender age_range action0 action1 action2 action3 first \ 
0  0  0   2  1  0  1  0  2 
1  0  0   4  0  0  1  0  1 
2  0  1   2  8  0  1  0  9 
3  1  0   2  0  0  1  0  1 
4  0  1   5  0  0  1  0  1 

    second third  ...   users_action3 merchants_appear \ 
0  1  1  ...      0    46 
1  1  1  ...      7    103 
2  1  1  ...      40    119 
3  1  1  ...      2    27 
4  1  1  ...      1    133 

    merchants_items merchants_cats merchants_brands merchants_times \ 
0    34    11    16    3 
1    58    25    23    6 
2    70    24    20    17 
3    17    11    15    11 
4    88    26    25    11 

    merchants_action0 merchants_action1 merchants_action2 merchants_action3 
0     38     4     2     2 
1     81     0     22     0 
2    106     6     7     0 
3     18     0     2     7 
4    128     0     5     0 

[5 rows x 37 columns] 
+0

:たとえば、あなたが一番下に貼り付けられたデータをコピーすることはpd.read_clipboard()とうまく読み込み、pd.read_csv()も限り、あなたはスペース区切りでそれを設定すると正常に動作する必要があります'+ '、' + '\ n"です。それが理由である – fourth

関連する問題