Sparkには、Spark MLlibとSpark MLの2つの機械学習ライブラリがあります。それらは実装されているものといくらか重複していますが、私が理解するように(Sparkエコシステム全体に新しい人物として)、Spark MLは行く方法であり、MLlibは主に下位互換性のために使われています。Spark MLlibとSpark MLのPCA
私の質問は非常に具体的で、PCAに関連しています。 MLlib実装で列数の制限があるように思わ
spark.mllibはスキニートールおよび行指向の形式で格納されているマトリックス及び任意のベクトルのPCAをサポートします。あなたはJavaコードの例を見れば
また、もあり、この
列の数は、例えば、小型でなければならず、一方1000未満
あなたがMLのドキュメントを見ると、何の制限もありません。
私の質問は - この制限はSpark MLにも存在するのですか?もしそうなら、なぜ制限があり、列の数が多い場合でもこの実装を使用できる回避策がありますか?
興味深い質問です。私は、他の多くの不一致をmllibのドキュメントで見てきました。 – Rob