2017-03-11 10 views
0

私は4つのファイルを持っている:train.txt、trainLabel.txt、test.txtという、testLabel.txtテンソルフローでデータを入力する方法は?

train.txt

1,60,feature_col0,feature_col1,feature_col2,feature_col3,feature_col4,feature_col5,feature_col6,feature_col7,feature_col8,feature_col9,feature_col10,feature_col11,feature_col12,feature_col13,feature_col14,feature_col15,feature_col16,feature_col17,feature_col18,feature_col19,feature_col20,feature_col21,feature_col22,feature_col23,feature_col24,feature_col25,feature_col26,feature_col27,feature_col28,feature_col29,feature_col30,feature_col31,feature_col32,feature_col33,feature_col34,feature_col35,feature_col36,feature_col37,feature_col38,feature_col39,feature_col40,feature_col41,feature_col42,feature_col43,feature_col44,feature_col45,feature_col46,feature_col47,feature_col48,feature_col49,feature_col50,feature_col51,feature_col52,feature_col53,feature_col54,feature_col55,feature_col56,feature_col57,feature_col58,feature_col59 
1,0,0,0,0,1,0,0,1,0,0,1,0,0,1,1,0,0,1,0,0,0,0,1,0,0,1,0,0,1,0,0,1,0,0,1,0,0,1,0,0,1,0,0,1,0,1,0,0,0,1,0,0,1,0,0,1,0,0,1 

trainLabel.txt

1,4,feature_col0,feature_col1,feature_col2,feature_col3 
1,1,1,0 

test.txt

1,60,feature_col0,feature_col1,feature_col2,feature_col3,feature_col4,feature_col5,feature_col6,feature_col7,feature_col8,feature_col9,feature_col10,feature_col11,feature_col12,feature_col13,feature_col14,feature_col15,feature_col16,feature_col17,feature_col18,feature_col19,feature_col20,feature_col21,feature_col22,feature_col23,feature_col24,feature_col25,feature_col26,feature_col27,feature_col28,feature_col29,feature_col30,feature_col31,feature_col32,feature_col33,feature_col34,feature_col35,feature_col36,feature_col37,feature_col38,feature_col39,feature_col40,feature_col41,feature_col42,feature_col43,feature_col44,feature_col45,feature_col46,feature_col47,feature_col48,feature_col49,feature_col50,feature_col51,feature_col52,feature_col53,feature_col54,feature_col55,feature_col56,feature_col57,feature_col58,feature_col59 
0,0,1,0,0,1,0,0,1,0,0,1,0,0,1,1,0,0,1,0,0,1,0,0,1,0,0,0,0,1,0,0,1,0,0,1,0,0,1,0,0,1,0,0,1,0,0,1,0,0,1,0,0,1,0,0,1,0,0,1 

testLabel.txt

1,4,feature_col0,feature_col1,feature_col2,feature_col3 
1,1,0,0 

dpNumが、私は入力にtrain.txt

[1 ,0..........., 1] # a rank 1 tensor; this is a vector with shape [60]のようないくつかのデータが欲しいfeature_col

を意味

そして

を予測

# Fit model. 
classifier.fit(x=training_set.data, 
       y=training_set.target, 
       steps=2000) 

すなわち:tutorialsページから0

+0

もう少し具体的に教えてください。 'train.csv'は実際に15000次元を持っていますか、それとも15000データポイントですか? 「ターゲットディメンション」とは何ですか? – kaufmanu

+0

あなたのコードで 'IRIS_TRAINING'とは何ですか?そのCSVファイルから小さな抜粋を投稿できますか? – kaufmanu

+0

私は偽のデータを生成し、私の質問を編集しました。どうもありがとう。 –

答えて

1

training_set.targetを呼び出してターゲットにアクセスできます。これにより、各データポイントのラベルが表示されます。

また、いくつかの用語と混同されているかどうかはわかりません:訓練データセットには15,000データポイントがありますが、(少なくともIrisデータセットの場合は)私はデータセット全体がラベル付けされていると信じています。あなたは15,000のトレーニングサンプルと1万のテストサンプルを持っていると言っていますか?

したがって、次のすべてが既にあなたにはっきりしているかどうかはわかりませんが、そうでない場合は、うまくいけばそれがクリアされます。

Sepal length Sepal width  Petal length Petal width  Species 
5.1    3.5    1.4    0.2    I. setosa 
4.9    3.0    1.4    0.2    I. setosa 
4.7    3.2    1.3    0.2    I. setosa 
.... 
5.1    2.5    3.0    1.1    I. versicolor 
5.7    2.8    4.1    1.3    I. versicolor 

すぐ通常、以下の用語が使用される:

  • テーブルの各行は、データポイント又はサンプルあるアイリスデータセットが(Wikipediaから採取した)このようなものに見えると言います
  • データポイントの次元はこの場合4である(この4つはセパール長さ、セパール幅、ペタル長さ、ペタル幅を特徴とする)(I. setosaまたはI. versicolor)の最後の列です。通常、ラベルは何らかの形で符号化される。あなたの疑問にお答えしますように、と1のラベルは0です。しかし、2つの可能なラベル以上のものがあるかもしれません。例えば。アイリスのデータセットには、通常I. virginicaという3番目の花もあります。
  • トレーニングテストセットテストセットは通常小さいことを除いが、まったく同じに見える(と最終出力のスコアを評価するよりも、あなたが他のテスト・セットのラベルを使用しません。あなたのクラシファイアの)。
+0

ご利用いただきありがとうございます。私の古い質問では、train.txtには実際に15000のディメンションがあり、1000ディメンションの結果を予測したいと考えています。 –

関連する問題