自分のデータセットのknnアルゴリズムを開発しました。私のデータセットは5000 * 17の値を含んでいます。このデータセットでは、データを検証用に4000、トレーニング用に1000で除算します。 私の質問は最終的に私のエラーパーセンテージはトレーニングデータのための0.0158です。それは私のアルゴリズムがknnに良いことを意味しますか?ıは間違いを犯しましたか?私のアルゴリズムはどう思いますか?knnアルゴリズムエラーパーセンテージ
答えて
コメントが長すぎます。
トレーニングセットでk-NNを評価することは、正しく行っていない限り、非常に危険です。その理由は、各要素がそれ自身の最も近い隣人であるからです。したがって、このアルゴリズムは不正です。
"k"とは何も指定しません。明らかに、k = 1の場合、最も近いネイバーはアイテム自体(またはおそらく同じキー値を持つアイテム)です。
したがって、コードを自分で作成する場合は、トレーニングインスタンスごとに、それを近隣のセットから除外する必要があります。これは手動で行うことができます。または、検証セットのアルゴリズムを評価し、トレーニングセットの結果を無視することもできます。
実際に、どのアルゴリズムでも、可能ならば、検証のためにトレーニングセットを使用しないでください。
実際には、ポイントの値を毎回変更することでポイント自体は含めませんでした。私はちょうど現在の点までの最小距離を持つk点を見つける。私はこれらのk点の値に基づいて値を与える。私はちょうど最初の実行で小さなエラーを取得し、それは私のアルゴリズムについて疑いがあります。 – Muaa2404
@ Muaa2404。 。 。それについて考えてみてください。訓練セット内の点からそれ自身までの距離は0であるため、常に最寄りのノードに含まれます(または、関係がある場合は少なくとも候補になります)。それは不正行為です。 –
- 1. PCAとKNNアルゴリズム
- 2. KNNエッジ/グラフ
- 3. Tensorflow Word2Vec KNN
- 4. R knn large datetet
- 5. フライトデータセットのKNNエラー
- 6. BucketRandomProjectionLSH KNNパラメータ
- 7. KNN sklearnのカテゴリラベル
- 8. RNのKnn回帰
- 9. KNN on mnistデータセットR
- 10. Scikit習得がKNN
- 11. ggplotのKNNモデルの輪郭?
- 12. Q:R - 異常行動のKNN
- 13. opencv 3.0でcv2のKNN train()
- 14. Q:R - 異常行動のKNN
- 15. MatlabのKNN分類器ERRORカレッジプロジェクト
- 16. KNN python sklearnのNクロス検証方法
- 17. KNNを使用してRを生産
- 18. knnコサインとジャカードの距離を使用
- 19. KNNの正規化の精度差
- 20. 確率的なkNNとナイーブベイズの違い
- 21. J48とIBk(KNN)アルゴリズムによる分類
- 22. サポートベクトルマシン(SVM)とKNNテストの効率
- 23. OpenCVのKNN不明の分類
- 24. 平面内のKNNの機能
- 25. KNNのユークリッド距離を計算する
- 26. kNNクラシファイアの性能(スピード)向上
- 27. RのKNN: '列車と階級の長さが違う'?ここ
- 28. kNNの機能の選択と重要な機能
- 29. KNN in sklearn - クラスでKNeighborsRegressorを適切に使うには?
- 30. RapidMinerの全データセットにkNNモデルを適用する
エラー率は1.58%と仮定していますか?それが0.0158%だったら、それはすばらしい結果になるでしょう。私は1.5%が非常に良い結果だと言っていますが、それはデータとアプリケーションに少し依存します。 –