knn

1熱

1答えて

私は変数の大部分がカテゴリ変数であるデータセットに取り組んでいます。いくつかの変数には5つのカテゴリがあります。このような状況でknnアルゴリズムを実装することは可能ですか？もしそうなら、これらのカテゴリ変数をどのように進めることができますか？私はそれらを正規化しなければなりませんか？私はRを使用しています。誰かが私をソースに導くことができれば助けになります。

-1熱

1答えて

wekaのKNNのGower's Distanceの使い方は？

現在、私はKNN分類に取り組んでおり、データセットにカテゴリ変数と連続変数の両方を持っています。だから私はKNNの類似性測度としてGowerの距離を使うことにしました。しかし、KNN分類のためにgowerの距離はwekaでは利用できません。 wekaを使用してKNNにGowerの距離を使用する方法はありますか？可能であれば、どうすれば実装できますか？

1熱

1答えて

ユークリッド距離などを使ってpysparkの最近隣にある

したがって、ユークリッド距離などを使ってpyspark DFの特定の行の最近傍を見つける必要があります。私は20以上の列、1000以上の行とすべての値が数値であるデータ。私はpysparkでいくつかのデータをオーバーサンプルしようとしていますが、mllibはそれをサポートしていないため、smoteを使って自分で作成することにしました。私のアプローチは今まで、すべてのカテゴリ距離をstringt

1熱

1答えて

2つの別々の行列で最も近い座標の隣を見つけて、2とrとの間の距離を

2つの次元（緯度/経度）の単純な行列である2つのデータフレームがあります。両方のデータフレームは以下のようになります。 latitude longitude 27.78833 -82.28197 27.79667 -82.29294 「dfref」と「dfnew」としましょう。 dfrefの各点について最も近い点をdfnewに、2点間の距離をメートルで求めたいと思います。出力は次のように

0熱

1答えて

KNNCATエラー「一部のクラスには1つのメンバーしかありません」

knncatのknncat関数を使用して自動データのKNN解析を実行しようとしています。私の訓練セットはおよそ70万回の観測です。分析を実装しようとすると、次のようなことが起こります。私はデータを読み込んでいる間に完全なケースメソッドを使用してNAを削除しようとしました。エラーの処理方法や意味を正確に把握していません。 Error in knncat(train = kdata.traini

0熱

1答えて

類似のアイテムを探す

私は小売業の多くのアイテムの大きなデータベースを持っています。特定のアイテムに類似するアイテムを探したい場合は、Spark MLでピアソンの相関関係を使用してそれを行うことはできますか？それを行うための他のより良いアルゴリズムはありますか？マシンが進化するにつれて学習する方法を確認するにはどうすればよいですか？編集 - さまざまな機能間の距離を見つけるためにMapreduceプログラムを実装しま

0熱

1答えて

Sklearnの自己定義Distance Metricの使用方法

2行の入力行列間の距離を計算し、その上にKNeighborsClassifierを実行する計画を書いています。 Sklearn KNeighborsClassifierでどのように別の距離メトリックを使用しますか？たとえば、次のように分類器は、新しい距離関数を定義する機能を提供します。また def distanceMetric(a, b): distance = <some dista

1熱

1答えて

Q：R - 異常行動のKNN

以下のKNN Rコードが異なる種子について異なる予測を与える理由を知っている人はいますか？これはK < -5のように奇妙であり、したがって、大多数が明確に定義されています。さらに、浮動小数点数は大きいので、データの問題の精度は（postのように）発生しません。 library(class) set.seed(642002713) m = 20 n = 1000 from = -(2^30

-1熱

1答えて

Q：RにおけるKNN - KNN Rコード以下の異なる種ごとに異なる予測を与える理由奇妙な行動

（このpostに継続中）誰でも知っていますか？これはK < -5のように奇妙であり、したがって、大多数が明確に定義されています。また、浮動小数点数が大きいため、データの精度の問題は発生せず、データのスケーリングと中心化が行われます。 library(class) from = -(2^30) to = -(from) seed <- -229881389 set.seed(seed)

0熱

2答えて

Rの中のdata.frameのフレームまたは他のネストされた構造

観測ごとにmatrix（またはdata.frame）を含むRのデータ構造を構築する必要があります。理想的にはdata.frameの中にmatrixとなります。これまでのところ、ネストされたリストについては、それを達成するために考えることしかできませんが、パフォーマンスが低下することは恐れられます。例例えば、data.frame素子 df <- data.frame(start=c("A", "