2016-08-03 7 views
1

私はスパークとスカラの新人です。 私はWEKAを使って訓練された10の機械学習モデルを持っています。Weark model on Sparkの使用方法

Now, i am moving my application to spark and want to use these models. 
How can i use them into spark? 

予測するモデルの種類は、データの種類によって異なります。 私は自分のアプリケーションを設計して、それらのうちの10個を一緒にメモリにロードする必要はありませんか?

ご協力いただければ幸いです。

答えて

1

まず、wekaのclassifiersserializableではありません。したがって、あなたのモデルはトリッキーな方法でのみ適用できます。

一方、MLLib(http://spark.apache.org/docs/latest/ml-guide.html)を使ってスパークベースのMLアルゴリズムを訓練することができるので、なぜapkaスパークでwekaベースのモデルを適用するのかは明らかではありません。 これはよく文書化されており、多くの有用な例が見つかります。

最後に、私はロイターデータセットのweka J48決定木と火花決定木モデルの性能を比較しました。 これは文書分類の問題で、10倍のクロス検証方法でモデルを暴露しました。 F1スコアはWEKA結果:

(船、0.5751879699248121)
(穀物、0.7714285714285716)
(お金-FX、0.7308567096285064)
(トウモロコシ、0.7334851936218679)
(商品、0.7641325536062378)
(粗、0.7815049864007253)
(稼ぐ、0.9310115645354248)
(小麦、0.7661870503597122)
(ACQ、0.8078484438430312)
(関心、0.6561 743341404359)

スパークの結果:

(船、0.5307018372123027)
(穀物、0.7606432455706257)
(金-FX、0.7476899173974012)
(トウモロコシ、0.7210280866934613)
(貿易、 0.7607140827384508)
(粗、0.7450426425908848)
(稼ぐ、0.9337615148649243)
(小麦、0.751148372254634)
あなたが見ることができるように(ACQ、0.8009280204333529)
(利子、0.6837952003315322)

は、それが2つの溶液との間の大きな違いはありません。 だから、私はapache spark mllibを適用することをお勧めします!

関連する問題