まず、wekaのclassifiers
はserializable
ではありません。したがって、あなたのモデルはトリッキーな方法でのみ適用できます。
一方、MLLib(http://spark.apache.org/docs/latest/ml-guide.html)を使ってスパークベースのMLアルゴリズムを訓練することができるので、なぜapkaスパークでwekaベースのモデルを適用するのかは明らかではありません。 これはよく文書化されており、多くの有用な例が見つかります。
最後に、私はロイターデータセットのweka J48決定木と火花決定木モデルの性能を比較しました。 これは文書分類の問題で、10倍のクロス検証方法でモデルを暴露しました。 F1スコアはWEKA結果:
(船、0.5751879699248121)
(穀物、0.7714285714285716)
(お金-FX、0.7308567096285064)
(トウモロコシ、0.7334851936218679)
(商品、0.7641325536062378)
(粗、0.7815049864007253)
(稼ぐ、0.9310115645354248)
(小麦、0.7661870503597122)
(ACQ、0.8078484438430312)
(関心、0.6561 743341404359)
スパークの結果:
(船、0.5307018372123027)
(穀物、0.7606432455706257)
(金-FX、0.7476899173974012)
(トウモロコシ、0.7210280866934613)
(貿易、 0.7607140827384508)
(粗、0.7450426425908848)
(稼ぐ、0.9337615148649243)
(小麦、0.751148372254634)
あなたが見ることができるように(ACQ、0.8009280204333529)
(利子、0.6837952003315322)
は、それが2つの溶液との間の大きな違いはありません。 だから、私はapache spark mllibを適用することをお勧めします!