ユークリッド距離などを使ってpysparkの最近隣にある

したがって、ユークリッド距離などを使ってpyspark DFの特定の行の最近傍を見つける必要があります。私は20以上の列、1000以上の行とすべての値が数値であるデータ。ユークリッド距離などを使ってpysparkの最近隣にある

私はpysparkでいくつかのデータをオーバーサンプルしようとしていますが、mllibはそれをサポートしていないため、smoteを使って自分で作成することにしました。

私のアプローチは今まで、すべてのカテゴリ距離をstringtoindexを使用してインデックスに変換しています。その結果、ユークリッド距離と近傍を見つけることができ、スマットを実行できます。

私はスパークとmlにかなり新しいです。どんな助けもありがとう。

2016-09-15 Taranjeet Singh

*あなたの*特定の*問題は何ですか？あなたがこれまでに試したことを教えてください。スタックオーバーフローはコード作成サービスではありませんが、少なくともあなた自身で問題を解決しようとすると、人々はあなたを助けてくれるでしょう。 [最小限で完全で検証可能なサンプルを作成する方法]（http://stackoverflow.com/help/mcve）と[どのように良い質問をしますか？]（http://stackoverflow.com/help/）をお読みください。ハウツー・ザ・クエスチョン）。その後、あなたの質問を更新し*改善します*。 –

はいくつかの編集を行いました。 –

試みたが、アイブ氏は、このスクリプトが見つかりません：https://github.com/jakac/spark-python-knn/blob/master/python/gaussalgo/knn/knn.py

あなたのデータはデータフレームであれば、あなたは最初に私が提供するライブラリが動作しているようdf.select("id", "yourColumnVector")

を使用し、その後、vectorASsembler https://spark.apache.org/docs/latest/ml-features.html#vectorassemblerとベクターにあなたの列をマージする必要がありますrddのみを使用すると、データフレームをRDDに変換する必要がありますdf.rdd

出典

2016-09-16 11:28:16 GwydionFR

ユークリッド距離などを使ってpysparkの最近隣にある

答えて

関連する問題