したがって、ユークリッド距離などを使ってpyspark DFの特定の行の最近傍を見つける必要があります。私は20以上の列、1000以上の行とすべての値が数値であるデータ。ユークリッド距離などを使ってpysparkの最近隣にある
私はpysparkでいくつかのデータをオーバーサンプルしようとしていますが、mllibはそれをサポートしていないため、smoteを使って自分で作成することにしました。
私のアプローチは今まで、すべてのカテゴリ距離をstringtoindexを使用してインデックスに変換しています。その結果、ユークリッド距離と近傍を見つけることができ、スマットを実行できます。
私はスパークとmlにかなり新しいです。どんな助けもありがとう。
*あなたの*特定の*問題は何ですか?あなたがこれまでに試したことを教えてください。スタックオーバーフローはコード作成サービスではありませんが、少なくともあなた自身で問題を解決しようとすると、人々はあなたを助けてくれるでしょう。 [最小限で完全で検証可能なサンプルを作成する方法](http://stackoverflow.com/help/mcve)と[どのように良い質問をしますか?](http://stackoverflow.com/help/)をお読みください。ハウツー・ザ・クエスチョン)。その後、あなたの質問を更新し*改善します*。 –
はいくつかの編集を行いました。 –