私は8つの変数に基づいてデフォルトの確率を予測するために、Rでknnを使用しようとしています(いくつかのパッケージ(knnflex
、class
)を使用しました)。データセットは8列の約100k行ですが、私のマシンは10k行のサンプルでは問題があるようです。データセット> 50行(つまりiris
)でknnを実行するための提案はありますか?R knn large datetet
編集:
明確にするためにいくつかの問題があります。
1)class
とknnflex
パッケージの例は少し不明確であり、あなたはそれをあなたが予測する変数とあなたが使用するデータを与えるランダムフォレストパッケージに似たいくつかの実装があった場合、私は興味がありましたモデルのトレーニング:
RF <- randomForest(x, y, ntree, type,...)
、その後好転し、テストデータセットを使用してデータを予測するモデルを使用します。
pred <- predict(RF, testData)
2)knn
がtraininを望んでいる、なぜ私は本当に理解していませんよg ANDモデルを構築するためのテストデータ。私が知ることから、パッケージは予測データのサイズの上限であると思われるnrows(trainingData)^2
に行列を作成します。 5000行を使用してモデルを作成しましたが(上記の#私はメモリ割り当てエラーがあります)、テストセット> 5000行を予測できませんでした。したがって、私はどちらかの必要があるでしょう:
訓練中A)を使用する方法を見つける> 5000行が
または
Bセット)フル100Kラインでモデルを使用する方法を見つけます。
ちょうどあなたが最終的にどのくらいこれをプッシュすることができましたか? – ktdrv
@ktdrv:私は完全なデータセットを管理すると信じています。私は2つの理由から、 'キャレット'パッケージのknn実装をお勧めします。まず、 'k'パラメータの調整が可能です。第2に、これは私が使用した最速のknnモデルであり、並列化が可能です(ただし、knnのものには大きなピックアップはありませんでした)。 ここには、起動して実行するための説明と例があります。http://www.jstatsoft.org/v28/i05/paper – screechOwl