2016-08-26 11 views
2

マルチ出力のマルチラベル分類アルゴリズムであるSparkで実装しようとしていますが、これを実行できるSpark Machine Learningライブラリにはモデルがないことに驚いています。スパークマルチラベルの分類

Sparkでどうすればいいですか?

そうでなければScikit Learn Logistic Regresssionは入力/出力のマルチラベル分類をサポートしますが、巨大なトレーニングデータはサポートしていません。学ぶscikitでコードを表示する

、以下のリンクをクリックしてください: https://gist.github.com/mkbouaziz/5bdb463c99ba9da317a1495d4635d0fc

+0

[Spark Multiclass Classification Example](http://stackoverflow.com/q/32029314) – zero323

答えて

0

またスパークにAPI documentationに基づいてマルチラベル分類をサポートしてロジスティック回帰があります。 thisも参照してください。

巨大なトレーニングデータのためのscikitlearnの問題は、適切なSpark設定を使用して、sparkで消えてしまいます。

もう1つの方法は、問題のあるラベルごとにバイナリ分類子を使用し、そのラベルに関連性のない予測を実行してマルチラベルを取得することです。任意のバイナリ分類子を使用してSparkで簡単に行うことができます。

間接的には、最も近い近隣とのマルチラベル分類を使用することもあります(state-of-the-art)。たとえば、Spark KNNまたはSpark KNN graphsのような最近接のスパーク拡張機能をいくつか使用します。