2016-12-14 7 views
-1

サブセット化に問題があります。データセットのサブセットを作成すると、結果のサブセットの複数の列に0が入力され、これらの列の変数クラスが不明に変更されました。これは特定のサブセットと一貫して発生します。影響を受ける列は影響を受けるサブセットによって異なりますサブセット化時に列の値が破損する

なぜこのようなことが起こっているのか分かりません。私がやっているのは単純なサブセットコマンドです。なぜRは4列の数値データを失い、ナンセンスに置き換えるのですか?

コードの問題のある部分は、ここで、この単純なコマンドである:元のデータセットは次のようになり

table.al = subset(bamboo_compounds,bamboo_compounds$CClass=="aldehyde") 

Screenshot

得られたサブセットが次のようになります

Screenshot

これらの4つの列に数値データを入力する必要があります。

私は文字通り.csvファイルにロード以外のことをして、そのデータのサブセットを作成しました。どうか、誰かが私にこれを引き起こしているかもしれないと私がそれを避ける方法を考えてくれますか?

+0

は 'sapply(table.a1、mode)'を呼び出します。それは私の目に見えます。 –

+0

助けを求めるときは、[再現可能な例](http://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example)を入力してください。データの画像は役に立たない。また、サブセットで '$'を使う必要はありません: 'subset(bamboo_compounds、CClass ==" aldehyde ")' – MrFlick

答えて

1

あなたのデータは実際に壊れていますか?サブセットに含まれている我々は(データセット全体の)上面図に見ることができる唯一の行は15行です:下のビューに表示されますどのような

unknown aldehyde,aldehyde,yes,NA,0.00000,0.00000,0.00000,... 

unknown aldehyde,aldehyde,yes,NA,0.00000,0.00000,0,0,... 

です読み取りますは、のみ私はそれが最後の2つの列の形式(これはおそらくサブセット内のそれらの列のすべての値が正確にゼロであるため、変更されていることがわかるので、小数点以下をすべて印刷する必要はありません)。

「未知の列型」のことは、RStudioの単なる奇妙なことだと思います。私は手

d <- read.csv(text= 
'"unknown aldehyde","aldehyde","yes",NA,0.0000,0.0000,0,0', 
header=FALSE) 

によって設定され、このデータを入力し、RStudioでそれを見るとき、私は最後の4つの列に、それらの「不明」のラベルを参照してください。しかし、Rにこれらの列が持つクラスを尋ねると、それらは数値(または整数)です。

sapply(d,class) 
     V1  V2  V3  V4  V5  V6  V7 
"factor" "factor" "factor" "logical" "numeric" "numeric" "integer" 
     V8 
"integer" 

私は、この「x列:不明」については何も見つけることができませんでした(確かに混乱している)RStudioビューアにタグを。 RStudioフォーラムでこれについて質問する価値はありますか?

関連する問題