R、KNN、またはデータサイエンス全般に関する経験がないと言って始めましょう。私は最近Kaggleを見つけ、Digit Recognition競争/チュートリアルで遊んでいます。このチュートリアルではRの最近傍を表示する方法は?
彼らはあなたが基本的な服従を始めるためにいくつかのサンプルコードを提供します。私の質問はあり
# makes the KNN submission
library(FNN)
train <- read.csv("c:/Development/data/digits/train.csv", header=TRUE)
test <- read.csv("c:/Development/data/digits/test.csv", header=TRUE)
labels <- train[,1]
train <- train[,-1]
results <- (0:9)[knn(train, test, labels, k = 10, algorithm="cover_tree")]
write(results, file="knn_benchmark.csv", ncolumns=1)
:
- はどのように設定されています。最近傍を表示することができますa 特定のテスト行ですか?
- 選択した10個のうちどれを変更することができますか
results
?
これらの質問は広すぎる可能性があります。もしそうなら、私は正しい道を教えてくれるリンクを歓迎します。
非常に私はここで意味をなさない何かを言っている可能性があります。この場合は、私を修正してください。
ワンダフル応答:あなたの投票方式により重く近い要素を重み付けに興味があれば、あなたもこのようなk個の隣人のそれぞれまでの距離を得ることができることに注意してください君は!私はいくつか質問がありました。 'indices'を出力しようとすると、nullを返します。私はあなたの例とは異なる何かをしなければいけませんか?あなたは、カスタム重み付けスキームの作成についてもっと研究するためのリソースをお勧めしますか?私が見ることのできるものを作る人の例ですか? –
それは非常に奇妙です。あなたが 'print(k)'をしたら何を得ますか?他の重み付けスキームについては、Googleで「KNN weighted」というフレーズを検索するのと同じくらいの運があります。しかし、私は私の答えに重み付けについて少し書いています。 –
わかりましたので、実際には 'k'の代わりに' results'を使っています。私はこれが違いをもたらさないと思うが、ただそれをそこに投げるべきだと思った。私は 'print(results)'を実行すると、最終的にcsvファイルに書き込まれる1000要素を出力します。 –