2016-09-15 29 views
1

したがって、ユークリッド距離などを使ってpyspark DFの特定の行の最近傍を見つける必要があります。私は20以上の列、1000以上の行とすべての値が数値であるデータ。ユークリッド距離などを使ってpysparkの最近隣にある

私はpysparkでいくつかのデータをオーバーサンプルしようとしていますが、mllibはそれをサポートしていないため、smoteを使って自分で作成することにしました。

私のアプローチは今まで、すべてのカテゴリ距離をstringtoindexを使用してインデックスに変換しています。その結果、ユークリッド距離と近傍を見つけることができ、スマットを実行できます。

私はスパークとmlにかなり新しいです。どんな助けもありがとう。

+0

*あなたの*特定の*問題は何ですか?あなたがこれまでに試したことを教えてください。スタックオーバーフローはコード作成サービスではありませんが、少なくともあなた自身で問題を解決しようとすると、人々はあなたを助けてくれるでしょう。 [最小限で完全で検証可能なサンプルを作成する方法](http://stackoverflow.com/help/mcve)と[どのように良い質問をしますか?](http://stackoverflow.com/help/)をお読みください。ハウツー・ザ・クエスチョン)。その後、あなたの質問を更新し*改善します*。 –

+0

はいくつかの編集を行いました。 –

答えて

2

試みたが、アイブ氏は、このスクリプトが見つかりません:https://github.com/jakac/spark-python-knn/blob/master/python/gaussalgo/knn/knn.py

あなたのデータはデータフレームであれば、あなたは最初に私が提供するライブラリが動作しているようdf.select("id", "yourColumnVector")

を使用し、その後、vectorASsembler https://spark.apache.org/docs/latest/ml-features.html#vectorassemblerとベクターにあなたの列をマージする必要がありますrddのみを使用すると、データフレームをRDDに変換する必要がありますdf.rdd

関連する問題