私は、PythonとPythonのScikit学習機械学習APIを使用してKNN(K Nearest Neighbors)アルゴリズムを学習する機械で作業していました。Scikit-learn KNN(K最近傍)Apache Sparkを使用して並列化
私は玩具のデータセットでサンプルコードを作成しました。単純にpythonとScikit-learnを使用し、私のKNNは正常に動作しています。しかし、私たちが知っているように、Scikit-learn APIは単一のマシンで動作するように構築されているため、一度私のおもちゃのデータを何百万ものデータセットに置き換えると、出力パフォーマンスが低下します。
Scikit-learn APIでsparkを使用してマシンの学習処理を並列に分散する多くのオプション、ヘルプ、コード例を検索しましたが、適切な解決策や例が見つかりませんでした。
Apache SparkとScikit-learn APIのK Nearest Neighborsのパフォーマンスをどのように向上させることができますか教えてください。
ありがとうございます!
あなたの質問は非常に幅広いです。しかし、私はこのポストがあなたを助けるかもしれないと思う[Sci-kitはApache Sparkで学ぶ](https://databricks.com/blog/2016/02/08/auto-scaling-scikit-learn-with-apache-spark .html) –
こんにちは@AlbertoBonsanto、私はあなたが与えたリンクを通過しましたが、私はScikitを学ぶKNNをSparkでスケールする方法を見つけません。 Spikの公式WebサイトでScikitの利用可能な第三者のパッケージを使用していますが、APIについてはわかりませんし、適切な例について多くの助けを払っていません。 – Nishan