5
Scikit-learnで、K-Meansにはn_jobsがありますが、MiniBatch K-Meansには欠けています。 MBKはKMeansよりも高速ですが、大規模なサンプルセットではマルチプロセッシング(または他の並列処理ライブラリ)に処理を分散したいと考えています。minibatch kmeans(scikit-learn)の処理をどのように配布できますか?
MKBの回答は部分一致ですか?
Scikit-learnで、K-Meansにはn_jobsがありますが、MiniBatch K-Meansには欠けています。 MBKはKMeansよりも高速ですが、大規模なサンプルセットではマルチプロセッシング(または他の並列処理ライブラリ)に処理を分散したいと考えています。minibatch kmeans(scikit-learn)の処理をどのように配布できますか?
MKBの回答は部分一致ですか?
私はこれが可能ではないと思います。あなたはミニバッチ処理の中でOpenMPを使って何かを実装することができます。私は、どのようなパラレルミニバッチk-means手続きも知らない。確率的勾配降下手順を並列化することはやや毛深い。
Btwでは、KMeansのn_jobsパラメータは異なるランダム初期化afaikのみを配布します。
モデルをウォームアップしてローカル最小流域に達し、その後、元のモデルのクローンでデータセットのパーティションを微調整し、時折平均化することができます。私はそれを試みたことはありません。 – ogrisel
パーティションをウォームアップして起動しない特別な理由はありますか?また、どのように平均していますか?クラスタ間の対応関係を見つけて、中心を平均化してみてください。それとも、初期化を暖かく開始し、通信が安定することを期待していますか? –
モデル#0の重心#2がモデル#1の重心#2に近いことはありそうもありません。ウォームアップとは、重心の安定したマッチングを可能にすることです。 – ogrisel