2017-06-05 9 views
0

MLLib(ランダムフォレストなど)で提供されている分類子を使用したいが、Sparkクラスタに接続せずにそれらを使用したい。MLLibクラシファイアをSparkインストールなしで訓練して使用できますか?

Sparkのコンテキストを使用するために、何らかのSparkの処理を何とか実行する必要がある場合は問題ありません。しかし、私はそのようなユースケースの情報や例を見つけることができませんでした。

だから私の二つの質問は以下のとおりです。

  • 全くスパークコンテキストなしMLLib分類器を使用する方法はありますか?
  • そうでなければ、実際のSparkインストールを必要とせずに、Sparkコンテキストをインプロセスで開始することで使用できますか?

答えて

2

org.apache.spark.mllibモデル:

  • は、Sparkクラスタなしで訓練することはできません。
  • 通常、ALSなどの分散モデルを除き、クラスタなしの予測に使用できます。

org.apache.spark.mlモデル:

  • トレーニングのSparkクラスタを必要としています。
  • それが将来的に変更される可能性がありますが、スパークとらわれないで使用できる形式にスパークにmlモデルをエクスポートするように設計されているサードパーティ製のツールの数があり

https://issues.apache.org/jira/browse/SPARK-10413)予測のSparkクラスタを要求環境(特別な設定なしで、いくつかを列挙するにはjpmml-sparkmodeldb)。

スパークmllibモデルでは、PMMLサポートにも制限があります。

商用ベンダーは、通常、Sparkモデルの製造に独自のツールを提供しています。

もちろん、local "cluster"を使用することはできますが、可能性のあるアプリケーションのほとんどではまだ多少重いです。完全なコンテキストを開始するには、少なくとも数秒かかることがあります。また

関連する問題